728x90

i-vector 2

[음성인식] x-vector

x-vector x-vector는 화자 임베딩 알고리즘의 종류 중 하나로 딥러닝 기반의 특징 추출 기법으로 활발히 연구되고 있는 방식 중 하나이다. 화자 임베딩 알고리즘에는 GMM(Gaussian Mixture Model), JFA(Joint Factor Analysis), supervector, i-vector, d-vector 등이 있다. 이 중 d-vector와 x-vector 방식은 매우 유사한 방식이다. 두 방식 모두 딥러닝 기반의 특징 추출 기법이고, 화자 분류 네트워크를 학습하고 은닉층(Hidden Layer) 중 하나를 임베딩으로 취하는 방식이다. x-vector 방식은 TDNN(Time-Delay Neural Network)의 마지막 은닉층을 통계적 풀링(Statistics Pooling..

[KALDI] VoxCeleb Recipe 따라하기

KALDI VoxCeleb Recipe 따라하기 지난번에 설치한 KALDI를 이용해서 KALDI에서 제공해주는 예제 스크립트중 하나인 VoxCeleb에 대한 실습 VoxCeleb이란?? A large scale audio-visual dataset of human speech 로 약 7천여명의 화자가 2000시간 이상의 음성 파일 데이터셋 이다. https://www.robots.ox.ac.uk/~vgg/data/voxceleb/ 에서 자세한 정보를 알아볼 수 있다. Step 1 : VoxCeleb Dataset 다운로드 아래 링크에서 데이터셋을 다운받을 수 있다. (VoxCeleb1과 VoxCeleb2 모두 필요하니까 둘다 다운로드 해야한다.) 데이터셋의 용량이 매우크기때문에 적어도 110GB의 데이터..

728x90