Speech AI/음성 인식

[음성인식] x-vector

1code 2021. 12. 2. 20:02
728x90

x-vector

x-vector는 화자 임베딩 알고리즘의 종류 중 하나로 딥러닝 기반의 특징 추출 기법으로 활발히 연구되고 있는 방식 중 하나이다.

화자 임베딩 알고리즘에는 GMM(Gaussian Mixture Model), JFA(Joint Factor Analysis), supervector, i-vector, d-vector 등이 있다. 

이 중 d-vector와 x-vector 방식은 매우 유사한 방식이다.

두 방식 모두 딥러닝 기반의 특징 추출 기법이고, 화자 분류 네트워크를 학습하고 은닉층(Hidden Layer) 중 하나를 임베딩으로 취하는 방식이다.

x-vector 방식은 TDNN(Time-Delay Neural Network)의 마지막 은닉층을 통계적 풀링(Statistics Pooling)하여 특징으로 사용한다.

x-vector 시스템의 DNN 구조

 

728x90