2601.02967v2 Jan 06, 2026 cs.SD

대규모 오디오 언어 모델을 위한 MoE 어댑터: 희소성, 분리성 및 기울기 충돌 방지

MoE Adapter for Large Audio Language Models: Sparsity, Disentanglement, and Gradient-Conflict-Free

Shikun Feng
Shikun Feng
Citations: 3,586
h-index: 7
Haifeng Wang
Haifeng Wang
Citations: 129
h-index: 5
Dan Zhang
Dan Zhang
Citations: 1
h-index: 1
Yishu Lei
Yishu Lei
Citations: 1
h-index: 1
Jing Hu
Jing Hu
Citations: 2,033
h-index: 1
Shuwei He
Shuwei He
Citations: 22
h-index: 3
Xianlong Luo
Xianlong Luo
Citations: 6
h-index: 2
Danxiang Zhu
Danxiang Zhu
Citations: 1,005
h-index: 2
Rui Liu
Rui Liu
Citations: 14
h-index: 2
Jingzhou He
Jingzhou He
Citations: 1
h-index: 1
Yu Sun
Yu Sun
Citations: 0
h-index: 0
Hua Wu
Hua Wu
Citations: 18
h-index: 2

대규모 언어 모델(LLM)의 입력 모달리티를 오디오 영역으로 확장하는 것은 포괄적인 다중 모드 인식을 달성하는 데 필수적입니다. 그러나 음향 정보는 본질적으로 extit{이질적}이며, 음성, 음악, 환경 맥락과 같은 속성을 얽히게 만듭니다. 기존 연구는 이러한 다양한 패턴을 모델링하기 위해 밀집된, 파라미터 공유 어댑터를 사용하지만, 이는 최적화 과정에서 extit{기울기 충돌}을 유발합니다. 왜냐하면 서로 다른 속성에 필요한 파라미터 업데이트가 서로 상반되기 때문입니다. 이러한 제한 사항을 해결하기 위해, 우리는 음향 정보를 분리하도록 설계된 희소한 Mixture-of-Experts(MoE) 아키텍처인 extit{ extbf{MoE-어댑터}}를 소개합니다. 구체적으로, MoE-어댑터는 동적 게이팅 메커니즘을 사용하여 오디오 토큰을 상호 보완적인 특징 서브 공간을 캡처하는 전문 지식자(expert)로 라우팅하고, 동시에 전역 컨텍스트를 유지하기 위해 공유된 지식자를 사용합니다. 이를 통해 기울기 충돌을 완화하고 미세한 특징 학습을 가능하게 합니다. 광범위한 실험 결과, MoE-어댑터는 오디오 의미 및 비언어적 작업 모두에서 우수한 성능을 보였으며, 유사한 계산 비용으로 기존 밀집 선형 모델보다 일관되게 성능이 우수했습니다. 또한, 관련 코드 및 모델을 공개하여 향후 연구를 지원할 예정입니다.

Original Abstract

Extending the input modality of Large Language Models~(LLMs) to the audio domain is essential for achieving comprehensive multimodal perception. However, it is well-known that acoustic information is intrinsically \textit{heterogeneous}, entangling attributes such as speech, music, and environmental context. Existing research is limited to a dense, parameter-shared adapter to model these diverse patterns, which induces \textit{gradient conflict} during optimization, as parameter updates required for distinct attributes contradict each other. To address this limitation, we introduce the \textit{\textbf{MoE-Adapter}}, a sparse Mixture-of-Experts~(MoE) architecture designed to decouple acoustic information. Specifically, it employs a dynamic gating mechanism that routes audio tokens to specialized experts capturing complementary feature subspaces while retaining shared experts for global context, thereby mitigating gradient conflicts and enabling fine-grained feature learning. Comprehensive experiments show that the MoE-Adapter achieves superior performance on both audio semantic and paralinguistic tasks, consistently outperforming dense linear baselines with comparable computational costs. Furthermore, we will release the related code and models to facilitate future research.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!