Speech AI/음성 인식

[KALDI] VoxCeleb Recipe 따라하기

1code 2021. 12. 1. 21:21
728x90

KALDI VoxCeleb Recipe 따라하기

지난번에 설치한 KALDI를 이용해서 KALDI에서 제공해주는 예제 스크립트중 하나인 VoxCeleb에 대한 실습

VoxCeleb이란?? A large scale audio-visual dataset of human speech 로 약 7천여명의 화자가 2000시간 이상의 음성 파일 데이터셋 이다. 

https://www.robots.ox.ac.uk/~vgg/data/voxceleb/ 에서 자세한 정보를 알아볼 수 있다.

 

Step 1 : VoxCeleb Dataset 다운로드

 

Step 2 : VoxCeleb Recipe 실행

  • 지난번에 설치한 Kaldi에서 VoxCeleb Recipe 로 들어간다.
  • cd kaldi/egs/voxceleb
  • 경로로 들어가면 v1 폴더와 v2폴더가 있다. v1은 i-vector를 사용하는 예제이고, v2는 x-vector를 사용하는 예제이다. i-vector와 x-vector에 대한 개념은 포스팅 예정이고, 여기서는 v2를 이용해서 x-vector를 사용한 예제를 진행해 보겠다.

Step 3 : x-vector 실행

  • v2폴더로 이동하면 아래와 같이 폴더가 구성되어 있다.
  • /export/kaldi/egs/voxceleb/v2$ ls -l
    total 36
    drwxr-xr-x 2 -(생략)- conf
    -rwxr-xr-x 1 -(생략)- cmd.sh
    -rwxr-xr-x 1 -(생략)- path.sh
    -rwxr-xr-x 1 -(생략)- run.sh
    lrwxrwxrwx 1 -(생략)- local -> ../v1/local/
    lrwxrwxrwx 1 -(생략)- sid -> ../../sre08/v1/sid/
    lrwxrwxrwx 1 -(생략)- steps -> ../../wsj/s5/steps
    lrwxrwxrwx 1 -(생략)- utils -> ../../wsj/s5/utils
  • run.sh 파일을 실행시키면 하루에서 이틀정도면 결과가 나온다.
  • 추가적으로 i-vector와 x-vector의 성능을 비교하면 아래와 같다.
  • 결과를 보면 x-vector가 i-vector에 비해 약 40%정도 향상된 것을 알 수 있다.
  • EER과 minDCF는 아래 포스팅을 참조하면 쉽게 이해할 수 있다.
  • 2021.11.30 - [Speech AI/음성 인식] - [음성인식] 화자 확인 평가방법 (EER, minDCF)
728x90