728x90
x-vector
x-vector는 화자 임베딩 알고리즘의 종류 중 하나로 딥러닝 기반의 특징 추출 기법으로 활발히 연구되고 있는 방식 중 하나이다.
화자 임베딩 알고리즘에는 GMM(Gaussian Mixture Model), JFA(Joint Factor Analysis), supervector, i-vector, d-vector 등이 있다.
이 중 d-vector와 x-vector 방식은 매우 유사한 방식이다.
두 방식 모두 딥러닝 기반의 특징 추출 기법이고, 화자 분류 네트워크를 학습하고 은닉층(Hidden Layer) 중 하나를 임베딩으로 취하는 방식이다.
x-vector 방식은 TDNN(Time-Delay Neural Network)의 마지막 은닉층을 통계적 풀링(Statistics Pooling)하여 특징으로 사용한다.

728x90
'Speech AI > 음성 인식' 카테고리의 다른 글
[음성인식] MFCC (0) | 2021.12.27 |
---|---|
[KALDI] allocate_egs.py 무한루프 현상 (0) | 2021.12.03 |
[KALDI] VoxCeleb Recipe 따라하기 (0) | 2021.12.01 |
[음성인식] 화자 확인 평가방법 (EER, minDCF) (0) | 2021.11.30 |
[음성인식] 화자분리 (x-vector 클러스터링 기반의 Speaker Diarization) (0) | 2021.11.23 |