MFCC는 입력 음성을 짧은 구간으로 나누고 이 잘개 쪼개진 음성을 프레임이라고 함
프레임 각각에 푸리에 변환을 실시해 해당 구간 음성에 담긴 주파수 정보를 추출
모든 프레임 각각에 푸리에 변환을 실시한 결과를 스펙트럼 이라고 함
스펙트럼에 사람의 말소리 인식에 민감한 주파수 영역대는 세밀하게 보고 나머지 영역대는 상대적으로 덜 촘촘히 분석하는 필터(mel filter bank)를 적용. 이를 멜 스펙트럼(mel spectrum)이라고 함. 여기에 로그를 취하면 로그 멜 스펙트럼(log-mel spectrum). mfcc는 로그 멜 스펙트럼에 역푸리에변환을 적용해 주파수 도메인의 정보를 새로운 시간 도메인으로 바꾼 것을 가리킴
mfcc는 인간의 말소리 인식에 중요한 특질들이 추출된 결과
참고자료:
https://haythamfayek.com/2016/04/21/speech-processing-for-machine-learning.html
No comments:
Post a Comment