728x90

TTS 3

[음성합성] Tacotron2 Model

Tacotron2 2018년 Google에서 "Tacotron2"라는 TTS(Text-to-Speech) 모델을 발표하였다. Tacotron2는 한 문장을 다른 문장으로 변환하는 구조인 "Seq2Seq(Sequence-to-Sequence)"를 기반으로한 모델이다. Tacotron2는 아래 그림과 같은 구조로 이루어져 있고, 크게 인코더, 디코더, 어텐션으로 구성되어있다. 인코더(Incoder) i-vector 또는 x-vector 등과 같은 특징 추출기법으로 이루어진 Character Embedding 계층 3개의 Conv Layers(Convolutional Layer) 양방향 LSTM(Long-Short Term memory Layer)로 구성되어있다. 디코더(Decoder) 인코딩 된 입력 시퀀스..

[환경설정] ESPnet 설치 (in Ubuntu 16.04)

ESPnet 설치 ESPnet?? : End-to-end Speech Processing toolkit 의 줄임말로 종단 간 음성 처리 도구이다. 한마디로 쉽게 말하면 TTS(Text-to-Speech), ASR(Automatic Speech Recognition), STT(Speech-to-Text) 등 여러가지 음성 처리 시스템을 하나의 toolkit으로 제공해 주는 오픈소스이다. ESPnet은 칼디(KALDI)스타일의 레시피를 제공해 주고있으므로 반드시 칼디를 먼저 설치하고 ESPnet을 설치해 주는 것이 좋다. [espnet에서 espnet과 espnet2가 있다. espnet을 사용하면 칼디를 반듯 설치해야 하지만, espnet2를 사용할 경우 칼디를 굳이 설치하지 않아도 된다. 그러나 나는 칼..

Setting 2021.11.29

[음성합성] 음성합성의 개념

음성합성(Speech Synthesis) 말소리의 음파를 기계가 자동으로 만들어 내는 기술 한 사람의 말소리를 녹음하여 필요한 음성 단위만 사용하여 인위적으로 음성을 만들어내는 기술. TTS(Text-to-Speech) TTS(Text-to-Speech) 입력된 텍스트를 텍스트 분석 단계에서 각 언어에 맞게 처리한 후 임베딩 과정을 거친다. 임베딩 과정에서 처리된 특정 벡터들은 인코더-디코더 (Encoder-Decoder)를 거쳐 멜-스펙트로그램(Mel-spectrogram)으로 변환된다. 생성된 멜-스펙트로그램은 보코더를 통해 음성으로 출력된다. 보편적으로 사용되고 있는 음성 합성 기술 : 연결합성(Concatenative Synthesis)과 SPSS(Statistical Parametric Spee..

728x90