728x90

음성합성 2

[음성변조] x-vector를 이용한 화자 익명화 방법 (논문 Review)

x-vector를 이용한 화자 익명화 방법 음성 데이터에서 개인의 데이터를 공유하는 것은 보안 및 개인정보 보호문제에 있어서 많은 문제점이 있다. 뿐만 아니라 사용자의 음성 데이터를 획득하여 음성 합성 시스템(TTS)을 적용하여 화자의 음성 발언을 생성할 수 있고 범죄에 이용될 수도 있다. 그래서 음성 데이터를 공유하기 전에 화자의 신원을 숨기는 기술이 개발되었고, 이 기술이 바로 화자 익명화 기술이다. 1. 화자 익명화 시스템 구조 입력 음성에 대하여 음성 인식 (ASR, Automatic Speech Recognition)을 진행하고, 기본 주파수(F0, Fundamental Frequency)와 x-vector에 대한 특징을 추출하는 과정을 먼저 진행한다. 그런다음 DNN 기반의 ASR 시스템을 사..

[음성합성] 음성합성의 개념

음성합성(Speech Synthesis) 말소리의 음파를 기계가 자동으로 만들어 내는 기술 한 사람의 말소리를 녹음하여 필요한 음성 단위만 사용하여 인위적으로 음성을 만들어내는 기술. TTS(Text-to-Speech) TTS(Text-to-Speech) 입력된 텍스트를 텍스트 분석 단계에서 각 언어에 맞게 처리한 후 임베딩 과정을 거친다. 임베딩 과정에서 처리된 특정 벡터들은 인코더-디코더 (Encoder-Decoder)를 거쳐 멜-스펙트로그램(Mel-spectrogram)으로 변환된다. 생성된 멜-스펙트로그램은 보코더를 통해 음성으로 출력된다. 보편적으로 사용되고 있는 음성 합성 기술 : 연결합성(Concatenative Synthesis)과 SPSS(Statistical Parametric Spee..

728x90