[음성인식] MFCC

Speech AI/음성 인식

1code 2021. 12. 27. 16:22

728x90

음성 처리 또는 오디오 신호 처리 분야에서 널리 쓰이는 특징(Feature) 파라미터이다.

MFCC는 여러 분야에서 활용이 된다. 예를 들어 음성 처리 분야에서는 화자 검증을 할 때 화자의 신원을 확인하는 방식으로 사용이 된다.

그리고 오디오 신호 처리 분야에서는 음악의 장르를 구별하는 방식으로 사용이 가능하다.

MFCC를 기술적으로 설명하면

Mel-Spectrum(멜 스펙트럼) 에서 Cepstral(캡스트럼)분석을 통해 특징 값을 추출한다.

아래 그림은 FMCC의 추출 과정이다.

음성 신호를 작은 크기(20~40msec)의 프레임으로 쪼개어 고속 푸리에 변환(FFT, Fast Fourier Transform)을 적용해 스펙트럼을 계산한다.

계산된 스펙트럼에 Mel-Filter Bank를 적용하여 멜-스펙트럼을 추출한다.

728x90

[KALDI] allocate_egs.py 무한루프 현상 (0)	2021.12.03
[음성인식] x-vector (0)	2021.12.02
[KALDI] VoxCeleb Recipe 따라하기 (0)	2021.12.01
[음성인식] 화자 확인 평가방법 (EER, minDCF) (0)	2021.11.30
[음성인식] 화자분리 (x-vector 클러스터링 기반의 Speaker Diarization) (0)	2021.11.23

One day One coding