Speech AI/음성 합성

[음성합성] 음성합성의 개념

1code 2021. 11. 18. 17:08
728x90

음성합성(Speech Synthesis)

  • 말소리의 음파를 기계가 자동으로 만들어 내는 기술
  • 한 사람의 말소리를 녹음하여 필요한 음성 단위만 사용하여 인위적으로 음성을 만들어내는 기술. TTS(Text-to-Speech)

TTS(Text-to-Speech)

  • 입력된 텍스트를 텍스트 분석 단계에서 각 언어에 맞게 처리한 후 임베딩 과정을 거친다. 임베딩 과정에서 처리된 특정 벡터들은 인코더-디코더 (Encoder-Decoder)를 거쳐 멜-스펙트로그램(Mel-spectrogram)으로 변환된다. 생성된 멜-스펙트로그램은 보코더를 통해 음성으로 출력된다. 
  • 보편적으로 사용되고 있는 음성 합성 기술 : 연결합성(Concatenative Synthesis)과 SPSS(Statistical Parametric Speech Synthesis)
  • TTS 기본 구조
  1.  
728x90

'Speech AI > 음성 합성' 카테고리의 다른 글

[음성합성] Tacotron2 Model  (0) 2021.12.06