Speech AI/음성 인식
[음성인식] 음성인식의 개념
1code
2021. 11. 19. 20:00
728x90
음성인식(Speech Recognition)
- 음성의 데이터를 문자 데이터로 전환하는 처리. STT(Speech-to-Text)
- 미리 기록해 둔 음성 패턴과 비교해 개인 인증 등의 용도로 사용하기도 하는데 이를 "화자인식"이라고 한다.
화자 인식(Speaker Recognition)
- 화자가 누구인지 식별하는 기술
- 기능에 따라 화자 식별(Speaker Identification) 화자 검증(Speaker Verification)으로 구분이 가능하다.
- 특정 문장의 사용에서의 인식에 따라 문장 독립 방식(Text-Independent)과 문장 종속 방식(Text-Dependent)으로 구분이 가능하다.
- 문장 독립 방식 : 화자 인식을 위해 발언하는 문장의 형식이나 종류에 제한이 없는 방식
- 문장 종속 방식 : 화자 인식을 위해 사용자가 특정 문장의 형식이나 종류로 발언하는 방식
- 화자 식별(Speaker Identification)
- 주어진 음성 샘플(Utterances)로 특징을 추출하여 데이터베이스에 등록되어 있는 화자 N명의 목소리와 비교하여 가장 유사한 화자를 찾아내는 기술
-
화자 식별 구조
- 화자 검증 (Speaker Verification)
- 주어진 음성 샘플(Utterances)로부터 특징을 추출하여 데이터베이스에 등록된 음성 샘플 중에 존재하는지를 검증하는 기술
- 등록된 음성 샘플과 화자의 음성을 비교하여 진위여부 판단
화자 검증 구조
728x90