x-vector를 이용한 화자 익명화 방법
음성 데이터에서 개인의 데이터를 공유하는 것은 보안 및 개인정보 보호문제에 있어서 많은 문제점이 있다. 뿐만 아니라 사용자의 음성 데이터를 획득하여 음성 합성 시스템(TTS)을 적용하여 화자의 음성 발언을 생성할 수 있고 범죄에 이용될 수도 있다. 그래서 음성 데이터를 공유하기 전에 화자의 신원을 숨기는 기술이 개발되었고, 이 기술이 바로 화자 익명화 기술이다.
1. 화자 익명화 시스템 구조
- 입력 음성에 대하여 음성 인식 (ASR, Automatic Speech Recognition)을 진행하고, 기본 주파수(F0, Fundamental Frequency)와 x-vector에 대한 특징을 추출하는 과정을 먼저 진행한다.
- 그런다음 DNN 기반의 ASR 시스템을 사용하여 PPG(Phoneme Posteriorgram)을 추출한다.
- PPG는 음성 표준 공간에서 음성 소리의 발음을 나타낼 수 있으며, 음성 콘텐츠에 독립적으로 대응하는 행렬이다.
- 미리 갖고있던 x-vector 모델의 정보를 토대로 입력 음성의 x-vector를 익멱화한다.
- (2021.12.01 - [Speech AI/음성 인식] - [KALDI] VoxCeleb Recipe 따라하기 에서 만든 x-vector를 사용하면 된다.)
- 마지막으로, Acoustic Model과 Neural Waveform Model(신경 파형 모델)을 사용하여 익명화 된 x-vector와 가장 먼저 진행한 PPG 와 F0에서 음성 파형을 합성하여 음성을 익명화 시킨다.
해당 Recipe는 Voice-Privacy-Challenge-2020을 참고하였다.
Landing Page | VoicePrivacy 2022
Hello!
www.voiceprivacychallenge.org
아래는 Recipe가 있는 Github 주소이다.
https://github.com/Voice-Privacy-Challenge/Voice-Privacy-Challenge-2020
GitHub - Voice-Privacy-Challenge/Voice-Privacy-Challenge-2020: Baseline Recipe for VoicePrivacy Challenge 2020: https://www.voic
Baseline Recipe for VoicePrivacy Challenge 2020: https://www.voiceprivacychallenge.org/docs/VoicePrivacy_2020_Eval_Plan_v1_3.pdf - GitHub - Voice-Privacy-Challenge/Voice-Privacy-Challenge-2020: Bas...
github.com
[논문 출처] Fang, Fuming, et al. Speaker Anonymization Using X-vector and Neural Waveform Models arXiv preprint arXiv:1905.13561 (2019).