728x90
KALDI VoxCeleb Recipe 따라하기
지난번에 설치한 KALDI를 이용해서 KALDI에서 제공해주는 예제 스크립트중 하나인 VoxCeleb에 대한 실습
VoxCeleb이란?? A large scale audio-visual dataset of human speech 로 약 7천여명의 화자가 2000시간 이상의 음성 파일 데이터셋 이다.
https://www.robots.ox.ac.uk/~vgg/data/voxceleb/ 에서 자세한 정보를 알아볼 수 있다.
Step 1 : VoxCeleb Dataset 다운로드
- 아래 링크에서 데이터셋을 다운받을 수 있다. (VoxCeleb1과 VoxCeleb2 모두 필요하니까 둘다 다운로드 해야한다.)
- 데이터셋의 용량이 매우크기때문에 적어도 110GB의 데이터 저장공간이 필요하다.
- https://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html -> 약 38GB
- https://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox2.html -> 약 77GB
Step 2 : VoxCeleb Recipe 실행
- 지난번에 설치한 Kaldi에서 VoxCeleb Recipe 로 들어간다.
-
cd kaldi/egs/voxceleb
- 경로로 들어가면 v1 폴더와 v2폴더가 있다. v1은 i-vector를 사용하는 예제이고, v2는 x-vector를 사용하는 예제이다. i-vector와 x-vector에 대한 개념은 포스팅 예정이고, 여기서는 v2를 이용해서 x-vector를 사용한 예제를 진행해 보겠다.
Step 3 : x-vector 실행
- v2폴더로 이동하면 아래와 같이 폴더가 구성되어 있다.
-
/export/kaldi/egs/voxceleb/v2$ ls -l total 36 drwxr-xr-x 2 -(생략)- conf -rwxr-xr-x 1 -(생략)- cmd.sh -rwxr-xr-x 1 -(생략)- path.sh -rwxr-xr-x 1 -(생략)- run.sh lrwxrwxrwx 1 -(생략)- local -> ../v1/local/ lrwxrwxrwx 1 -(생략)- sid -> ../../sre08/v1/sid/ lrwxrwxrwx 1 -(생략)- steps -> ../../wsj/s5/steps lrwxrwxrwx 1 -(생략)- utils -> ../../wsj/s5/utils
- run.sh 파일을 실행시키면 하루에서 이틀정도면 결과가 나온다.
- 추가적으로 i-vector와 x-vector의 성능을 비교하면 아래와 같다.
- 결과를 보면 x-vector가 i-vector에 비해 약 40%정도 향상된 것을 알 수 있다.
- EER과 minDCF는 아래 포스팅을 참조하면 쉽게 이해할 수 있다.
- 2021.11.30 - [Speech AI/음성 인식] - [음성인식] 화자 확인 평가방법 (EER, minDCF)
728x90
'Speech AI > 음성 인식' 카테고리의 다른 글
[KALDI] allocate_egs.py 무한루프 현상 (0) | 2021.12.03 |
---|---|
[음성인식] x-vector (0) | 2021.12.02 |
[음성인식] 화자 확인 평가방법 (EER, minDCF) (0) | 2021.11.30 |
[음성인식] 화자분리 (x-vector 클러스터링 기반의 Speaker Diarization) (0) | 2021.11.23 |
[음성인식] 화자분리(Speaker Diarization) (0) | 2021.11.22 |