[음성인식] 음성인식의 개념

Speech AI/음성 인식

[음성인식] 음성인식의 개념

1code 2021. 11. 19. 20:00

728x90

음성인식(Speech Recognition)

음성의 데이터를 문자 데이터로 전환하는 처리. STT(Speech-to-Text)
미리 기록해 둔 음성 패턴과 비교해 개인 인증 등의 용도로 사용하기도 하는데 이를 "화자인식"이라고 한다.

화자 인식(Speaker Recognition)

화자가 누구인지 식별하는 기술
기능에 따라 화자 식별(Speaker Identification) 화자 검증(Speaker Verification)으로 구분이 가능하다.
특정 문장의 사용에서의 인식에 따라 문장 독립 방식(Text-Independent)과 문장 종속 방식(Text-Dependent)으로 구분이 가능하다.
- 문장 독립 방식 : 화자 인식을 위해 발언하는 문장의 형식이나 종류에 제한이 없는 방식
- 문장 종속 방식 : 화자 인식을 위해 사용자가 특정 문장의 형식이나 종류로 발언하는 방식

화자 식별(Speaker Identification)
- 주어진 음성 샘플(Utterances)로 특징을 추출하여 데이터베이스에 등록되어 있는 화자 N명의 목소리와 비교하여 가장 유사한 화자를 찾아내는 기술
- 화자 식별 구조
화자 검증 (Speaker Verification)
- 주어진 음성 샘플(Utterances)로부터 특징을 추출하여 데이터베이스에 등록된 음성 샘플 중에 존재하는지를 검증하는 기술
- 등록된 음성 샘플과 화자의 음성을 비교하여 진위여부 판단
- 화자 검증 구조

728x90

'Speech AI > 음성 인식' 카테고리의 다른 글

[음성인식] x-vector (0)	2021.12.02
[KALDI] VoxCeleb Recipe 따라하기 (0)	2021.12.01
[음성인식] 화자 확인 평가방법 (EER, minDCF) (0)	2021.11.30
[음성인식] 화자분리 (x-vector 클러스터링 기반의 Speaker Diarization) (0)	2021.11.23
[음성인식] 화자분리(Speaker Diarization) (0)	2021.11.22

현재글[음성인식] 음성인식의 개념

티스토리툴바