HuPER: 인간 영감을 받은 음성 인식 프레임워크
HuPER: A Human-Inspired Framework for Phonetic Perception
본 논문에서는 인간의 음성 인식 과정을 모방한 HuPER라는 프레임워크를 제안합니다. HuPER는 음향 음성학적 증거와 언어 지식을 기반으로 한 적응적 추론을 통해 음성 인식을 모델링합니다. 단 100시간의 학습 데이터만으로 HuPER는 5개의 영어 벤치마크에서 최첨단 수준의 음성 오류율을 달성했으며, 95개의 새로운 언어로 뛰어난 제로샷 성능을 보입니다. 또한, HuPER는 다양한 음향 조건에서 적응적이고 다중 경로 음성 인식을 가능하게 하는 최초의 프레임워크입니다. 모든 학습 데이터, 모델, 코드는 공개되어 있습니다. 코드 및 데모는 https://github.com/HuPER29/HuPER 에서 확인할 수 있습니다.
We propose HuPER, a human-inspired framework that models phonetic perception as adaptive inference over acoustic-phonetics evidence and linguistic knowledge. With only 100 hours of training data, HuPER achieves state-of-the-art phonetic error rates on five English benchmarks and strong zero-shot transfer to 95 unseen languages. HuPER is also the first framework to enable adaptive, multi-path phonetic perception under diverse acoustic conditions. All training data, models, and code are open-sourced. Code and demo avaliable at https://github.com/HuPER29/HuPER.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.