[음성인식] 음성인식의 개념

Speech AI/음성 인식

[음성인식] 음성인식의 개념

1code 2021. 11. 19. 20:00

728x90

음성인식(Speech Recognition)

음성의 데이터를 문자 데이터로 전환하는 처리. STT(Speech-to-Text)
미리 기록해 둔 음성 패턴과 비교해 개인 인증 등의 용도로 사용하기도 하는데 이를 "화자인식"이라고 한다.

화자 인식(Speaker Recognition)

화자가 누구인지 식별하는 기술
기능에 따라 화자 식별(Speaker Identification) 화자 검증(Speaker Verification)으로 구분이 가능하다.
특정 문장의 사용에서의 인식에 따라 문장 독립 방식(Text-Independent)과 문장 종속 방식(Text-Dependent)으로 구분이 가능하다.
- 문장 독립 방식 : 화자 인식을 위해 발언하는 문장의 형식이나 종류에 제한이 없는 방식
- 문장 종속 방식 : 화자 인식을 위해 사용자가 특정 문장의 형식이나 종류로 발언하는 방식

화자 식별(Speaker Identification)
- 주어진 음성 샘플(Utterances)로 특징을 추출하여 데이터베이스에 등록되어 있는 화자 N명의 목소리와 비교하여 가장 유사한 화자를 찾아내는 기술
- 화자 식별 구조
화자 검증 (Speaker Verification)
- 주어진 음성 샘플(Utterances)로부터 특징을 추출하여 데이터베이스에 등록된 음성 샘플 중에 존재하는지를 검증하는 기술
- 등록된 음성 샘플과 화자의 음성을 비교하여 진위여부 판단
- 화자 검증 구조

728x90