728x90

음성인식 3

[음성변조] x-vector를 이용한 화자 익명화 방법 (논문 Review)

x-vector를 이용한 화자 익명화 방법 음성 데이터에서 개인의 데이터를 공유하는 것은 보안 및 개인정보 보호문제에 있어서 많은 문제점이 있다. 뿐만 아니라 사용자의 음성 데이터를 획득하여 음성 합성 시스템(TTS)을 적용하여 화자의 음성 발언을 생성할 수 있고 범죄에 이용될 수도 있다. 그래서 음성 데이터를 공유하기 전에 화자의 신원을 숨기는 기술이 개발되었고, 이 기술이 바로 화자 익명화 기술이다. 1. 화자 익명화 시스템 구조 입력 음성에 대하여 음성 인식 (ASR, Automatic Speech Recognition)을 진행하고, 기본 주파수(F0, Fundamental Frequency)와 x-vector에 대한 특징을 추출하는 과정을 먼저 진행한다. 그런다음 DNN 기반의 ASR 시스템을 사..

[음성인식] x-vector

x-vector x-vector는 화자 임베딩 알고리즘의 종류 중 하나로 딥러닝 기반의 특징 추출 기법으로 활발히 연구되고 있는 방식 중 하나이다. 화자 임베딩 알고리즘에는 GMM(Gaussian Mixture Model), JFA(Joint Factor Analysis), supervector, i-vector, d-vector 등이 있다. 이 중 d-vector와 x-vector 방식은 매우 유사한 방식이다. 두 방식 모두 딥러닝 기반의 특징 추출 기법이고, 화자 분류 네트워크를 학습하고 은닉층(Hidden Layer) 중 하나를 임베딩으로 취하는 방식이다. x-vector 방식은 TDNN(Time-Delay Neural Network)의 마지막 은닉층을 통계적 풀링(Statistics Pooling..

[KALDI] VoxCeleb Recipe 따라하기

KALDI VoxCeleb Recipe 따라하기 지난번에 설치한 KALDI를 이용해서 KALDI에서 제공해주는 예제 스크립트중 하나인 VoxCeleb에 대한 실습 VoxCeleb이란?? A large scale audio-visual dataset of human speech 로 약 7천여명의 화자가 2000시간 이상의 음성 파일 데이터셋 이다. https://www.robots.ox.ac.uk/~vgg/data/voxceleb/ 에서 자세한 정보를 알아볼 수 있다. Step 1 : VoxCeleb Dataset 다운로드 아래 링크에서 데이터셋을 다운받을 수 있다. (VoxCeleb1과 VoxCeleb2 모두 필요하니까 둘다 다운로드 해야한다.) 데이터셋의 용량이 매우크기때문에 적어도 110GB의 데이터..

728x90