[음성합성] 음성합성의 개념

Speech AI/음성 합성

1code 2021. 11. 18. 17:08

728x90

TTS(Text-to-Speech)

입력된 텍스트를 텍스트 분석 단계에서 각 언어에 맞게 처리한 후 임베딩 과정을 거친다. 임베딩 과정에서 처리된 특정 벡터들은 인코더-디코더 (Encoder-Decoder)를 거쳐 멜-스펙트로그램(Mel-spectrogram)으로 변환된다. 생성된 멜-스펙트로그램은 보코더를 통해 음성으로 출력된다.
보편적으로 사용되고 있는 음성 합성 기술 : 연결합성(Concatenative Synthesis)과 SPSS(Statistical Parametric Speech Synthesis)
TTS 기본 구조

728x90

[음성합성] Tacotron2 Model (0)	2021.12.06

One day One coding