728x90
음성합성(Speech Synthesis)
- 말소리의 음파를 기계가 자동으로 만들어 내는 기술
- 한 사람의 말소리를 녹음하여 필요한 음성 단위만 사용하여 인위적으로 음성을 만들어내는 기술. TTS(Text-to-Speech)
TTS(Text-to-Speech)
- 입력된 텍스트를 텍스트 분석 단계에서 각 언어에 맞게 처리한 후 임베딩 과정을 거친다. 임베딩 과정에서 처리된 특정 벡터들은 인코더-디코더 (Encoder-Decoder)를 거쳐 멜-스펙트로그램(Mel-spectrogram)으로 변환된다. 생성된 멜-스펙트로그램은 보코더를 통해 음성으로 출력된다.
- 보편적으로 사용되고 있는 음성 합성 기술 : 연결합성(Concatenative Synthesis)과 SPSS(Statistical Parametric Speech Synthesis)
TTS 기본 구조
728x90
'Speech AI > 음성 합성' 카테고리의 다른 글
[음성합성] Tacotron2 Model (0) | 2021.12.06 |
---|