Speech AI/음성 인식

[음성인식] 음성인식의 개념

1code 2021. 11. 19. 20:00
728x90

음성인식(Speech Recognition)

  • 음성의 데이터를 문자 데이터로 전환하는 처리. STT(Speech-to-Text)
  • 미리 기록해 둔 음성 패턴과 비교해 개인 인증 등의 용도로 사용하기도 하는데 이를 "화자인식"이라고 한다.

 

화자 인식(Speaker Recognition) 

  • 화자가 누구인지 식별하는 기술
  • 기능에 따라 화자 식별(Speaker Identification) 화자 검증(Speaker Verification)으로 구분이 가능하다.
  • 특정 문장의 사용에서의 인식에 따라 문장 독립 방식(Text-Independent)과 문장 종속 방식(Text-Dependent)으로 구분이 가능하다.
    • 문장 독립 방식 : 화자 인식을 위해 발언하는 문장의 형식이나 종류에 제한이 없는 방식
    • 문장 종속 방식 : 화자 인식을 위해 사용자가 특정 문장의 형식이나 종류로 발언하는 방식
  1. 화자 식별(Speaker Identification)
    • 주어진 음성 샘플(Utterances)로 특징을 추출하여 데이터베이스에 등록되어 있는 화자 N명의 목소리와 비교하여 가장 유사한 화자를 찾아내는 기술 
    •  
      화자 식별 구조
  2. 화자 검증 (Speaker Verification)
    •  주어진 음성 샘플(Utterances)로부터 특징을 추출하여 데이터베이스에 등록된 음성 샘플 중에 존재하는지를 검증하는 기술
    • 등록된 음성 샘플과 화자의 음성을 비교하여 진위여부 판단
    • 화자 검증 구조

 

728x90