Speech AI/음성 인식

[음성인식] 화자분리 (x-vector 클러스터링 기반의 Speaker Diarization)

1code 2021. 11. 23. 20:34
728x90

x-vector 클러스터링 기반의 Speaker Diarization

  • Speaker Diarization based on x-vector clustering
  • SAD(Speech Activity Detection) : 음성(Speech)과 비음성(Non-speech) 구간 검출 (VAD와 유사)
  • x-vector extraction : x-vector 특징 추출
  • PLDA scoring : 확률적 선형 판별 분석 점수 계산
  • AHC(Agglomerative Hierarchical Clustering)
    • 작은 단위로부터 클러스터링을 시작하여 모든 데이터를 묶을 때까지 반복하는 Bottom-Up 방식으로 클러스터링을 진행
    • 가장 근접한 데이터끼리 클러스터링을 진행 -> 클러스터와 가장 근접한 데이터를 클러스터링 -> 하나의 클러스터링이 될때까지 반복 진행
  • 참고 Recipe : kaldi/egs/libri_css/s5_mono [Link]

 

[참고 논문] L. Federico, et al. "Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: theory, implementation and analysis on standard tasks." arXiv preprint arXiv:2012.14952(2020)

 

728x90