2602.01634v1 Feb 02, 2026 eess.AS

HuPER: 인간 영감을 받은 음성 인식 프레임워크

HuPER: A Human-Inspired Framework for Phonetic Perception

G. Anumanchipalli
G. Anumanchipalli
Citations: 3,538
h-index: 26
Jiachen Lian
Jiachen Lian
Citations: 471
h-index: 14
Chenxu Guo
Chenxu Guo
Citations: 78
h-index: 6
Yisi Liu
Yisi Liu
Citations: 6
h-index: 1
Baihe Huang
Baihe Huang
Citations: 0
h-index: 0
S. Narayanan
S. Narayanan
Citations: 1
h-index: 1
C. Cho
C. Cho
Citations: 52
h-index: 4

본 논문에서는 인간의 음성 인식 과정을 모방한 HuPER라는 프레임워크를 제안합니다. HuPER는 음향 음성학적 증거와 언어 지식을 기반으로 한 적응적 추론을 통해 음성 인식을 모델링합니다. 단 100시간의 학습 데이터만으로 HuPER는 5개의 영어 벤치마크에서 최첨단 수준의 음성 오류율을 달성했으며, 95개의 새로운 언어로 뛰어난 제로샷 성능을 보입니다. 또한, HuPER는 다양한 음향 조건에서 적응적이고 다중 경로 음성 인식을 가능하게 하는 최초의 프레임워크입니다. 모든 학습 데이터, 모델, 코드는 공개되어 있습니다. 코드 및 데모는 https://github.com/HuPER29/HuPER 에서 확인할 수 있습니다.

Original Abstract

We propose HuPER, a human-inspired framework that models phonetic perception as adaptive inference over acoustic-phonetics evidence and linguistic knowledge. With only 100 hours of training data, HuPER achieves state-of-the-art phonetic error rates on five English benchmarks and strong zero-shot transfer to 95 unseen languages. HuPER is also the first framework to enable adaptive, multi-path phonetic perception under diverse acoustic conditions. All training data, models, and code are open-sourced. Code and demo avaliable at https://github.com/HuPER29/HuPER.

0 Citations
0 Influential
45.42453324894 Altmetric
227.1 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!