Cheonkam's Deep Learning Space: [Speech Technology in Korean] Mel-Frequency Cepstral Coefficients (MFCC) 개념

Monday, December 5, 2022

[Speech Technology in Korean] Mel-Frequency Cepstral Coefficients (MFCC) 개념

MFCC는 입력 음성을 짧은 구간으로 나누고 이 잘개 쪼개진 음성을 프레임이라고 함

프레임 각각에 푸리에 변환을 실시해 해당 구간 음성에 담긴 주파수 정보를 추출

모든 프레임 각각에 푸리에 변환을 실시한 결과를 스펙트럼 이라고 함

스펙트럼에 사람의 말소리 인식에 민감한 주파수 영역대는 세밀하게 보고 나머지 영역대는 상대적으로 덜 촘촘히 분석하는 필터(mel filter bank)를 적용. 이를 멜 스펙트럼(mel spectrum)이라고 함. 여기에 로그를 취하면 로그 멜 스펙트럼(log-mel spectrum). mfcc는 로그 멜 스펙트럼에 역푸리에변환을 적용해 주파수 도메인의 정보를 새로운 시간 도메인으로 바꾼 것을 가리킴

mfcc는 인간의 말소리 인식에 중요한 특질들이 추출된 결과

참고자료:

https://haythamfayek.com/2016/04/21/speech-processing-for-machine-learning.html

Monday, December 5, 2022

[Speech Technology in Korean] Mel-Frequency Cepstral Coefficients (MFCC) 개념

No comments:

Post a Comment

[Book Summary - CtDSI] Cracking the Data Science Interview Ch. 1

Postings