'Speaker Diarization' 태그의 글 목록

[음성인식] 화자분리(Speaker Diarization)

화자분리(Speaker Diarization) 대화, 상담, 회의 등과 같은 2명 이상의 화자가 발언하는 음성 샘플로부터 화자가 누구인지, 언제 어떤 말을 했는지 확인하는 기술 "Who spoke when?" 아래 예시 처럼 하나의 음성 샘플에서 A화자와 B화자로 분리해 주는 기술이다. 접근 방법 Bottom-Up Approach : 클러스터 수를 연속적으로 병합하여 줄여 각 화자에 대응하는 하나의 클러스터 혹은 모델이 남을 때 까지 반복 학습하는 것을 목표 Top-Down Approach : 단일 화자 모델로 전체 음성 샘플을 모델링 한 후 전체 화자 수가 계산될 때까지 새로운 모델을 연속적으로 추가하는 방식. Bottom-Up 방식에 비하여 성능은 떨어지지만, 계싼 효율이 좋고 클러스터 정제를 통해 ..

Speech AI/음성 인식 2021.11.22

One day One coding

Speaker Diarization 2

티스토리툴바