728x90
음성인식(Speech Recognition)
- 음성의 데이터를 문자 데이터로 전환하는 처리. STT(Speech-to-Text)
- 미리 기록해 둔 음성 패턴과 비교해 개인 인증 등의 용도로 사용하기도 하는데 이를 "화자인식"이라고 한다.
화자 인식(Speaker Recognition)
- 화자가 누구인지 식별하는 기술
- 기능에 따라 화자 식별(Speaker Identification) 화자 검증(Speaker Verification)으로 구분이 가능하다.
- 특정 문장의 사용에서의 인식에 따라 문장 독립 방식(Text-Independent)과 문장 종속 방식(Text-Dependent)으로 구분이 가능하다.
- 문장 독립 방식 : 화자 인식을 위해 발언하는 문장의 형식이나 종류에 제한이 없는 방식
- 문장 종속 방식 : 화자 인식을 위해 사용자가 특정 문장의 형식이나 종류로 발언하는 방식
- 화자 식별(Speaker Identification)
- 주어진 음성 샘플(Utterances)로 특징을 추출하여 데이터베이스에 등록되어 있는 화자 N명의 목소리와 비교하여 가장 유사한 화자를 찾아내는 기술
-
화자 식별 구조
- 화자 검증 (Speaker Verification)
- 주어진 음성 샘플(Utterances)로부터 특징을 추출하여 데이터베이스에 등록된 음성 샘플 중에 존재하는지를 검증하는 기술
- 등록된 음성 샘플과 화자의 음성을 비교하여 진위여부 판단
화자 검증 구조
728x90
'Speech AI > 음성 인식' 카테고리의 다른 글
[음성인식] x-vector (0) | 2021.12.02 |
---|---|
[KALDI] VoxCeleb Recipe 따라하기 (0) | 2021.12.01 |
[음성인식] 화자 확인 평가방법 (EER, minDCF) (0) | 2021.11.30 |
[음성인식] 화자분리 (x-vector 클러스터링 기반의 Speaker Diarization) (0) | 2021.11.23 |
[음성인식] 화자분리(Speaker Diarization) (0) | 2021.11.22 |