언어 계통이 중요하다: 언어적 경계를 초월한 LLM 기반 음성 인식 시스템 평가
Language Family Matters: Evaluating LLM-Based ASR Across Linguistic Boundaries
대규모 언어 모델(LLM) 기반 자동 음성 인식(ASR) 시스템은 가벼운 연결 모듈을 통해 사전 훈련된 LLM과 고정된 음성 인코더를 연결하여 제한된 자원으로 강력한 성능을 달성합니다. 기존 연구에서는 언어별로 별도의 연결 모듈을 훈련했지만, 언어적 연관성을 고려하지 않았습니다. 본 연구에서는 언어 계통 관계를 기반으로 효율적이고 새로운 연결 모듈 공유 전략을 제안하며, 이를 통해 하나의 연결 모듈을 언어 계통 전체에 적용할 수 있습니다. 우리는 두 개의 다국어 LLM과, 선별된 음성 데이터와 사용자 참여형 음성 데이터를 포함하는 두 가지 실제 데이터 코퍼스를 사용하여 제안하는 방법의 효과를 실험적으로 검증했습니다. 그 결과, 언어 계통 기반 연결 모듈은 파라미터 수를 줄이면서 다양한 영역에서의 일반화 성능을 향상시키는 것을 확인했으며, 이는 다국어 ASR 시스템 배포를 위한 실용적이고 확장 가능한 전략을 제공합니다.
Large Language Model (LLM)-powered Automatic Speech Recognition (ASR) systems achieve strong performance with limited resources by linking a frozen speech encoder to a pretrained LLM via a lightweight connector. Prior work trains a separate connector per language, overlooking linguistic relatedness. We propose an efficient and novel connector-sharing strategy based on linguistic family membership, enabling one connector per family, and empirically validate its effectiveness across two multilingual LLMs and two real-world corpora spanning curated and crowd-sourced speech. Our results show that family-based connectors reduce parameter count while improving generalization across domains, offering a practical and scalable strategy for multilingual ASR deployment.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.