Monday, December 5, 2022

[Speech Technology in Korean] Mel-Frequency Cepstral Coefficients (MFCC) 개념

 MFCC는 입력 음성을 짧은 구간으로 나누고 이 잘개 쪼개진 음성을 프레임이라고 함

프레임 각각에 푸리에 변환을 실시해 해당 구간 음성에 담긴 주파수 정보를 추출

모든 프레임 각각에 푸리에 변환을 실시한 결과를 스펙트럼 이라고


스펙트럼에 사람의 말소리 인식에 민감한 주파수 영역대는 세밀하게 보고 나머지 영역대는 상대적으로 덜 촘촘히 분석하는 필터(mel filter bank)를 적용. 이를 멜 스펙트럼(mel spectrum)이라고 함. 여기에 로그를 취하면 로그 멜 스펙트럼(log-mel spectrum). mfcc는 로그 멜 스펙트럼에 역푸리에변환을 적용해 주파수 도메인의 정보를 새로운 시간 도메인으로 바꾼 것을 가리킴


mfcc는 인간의 말소리 인식에 중요한 특질들이 추출된 결과


참고자료:

https://haythamfayek.com/2016/04/21/speech-processing-for-machine-learning.html

No comments:

Post a Comment