AudioRouter: 강화 학습 기반 이중 추론을 통한 데이터 효율적인 오디오 이해
AudioRouter: Data Efficient Audio Understanding via RL based Dual Reasoning
대규모 오디오 언어 모델(LALMs)은 오디오 이해 및 추론 능력에서 뛰어난 성능을 보여주었습니다. 그러나 세밀한 청각 인지 능력은 여전히 신뢰성이 떨어지며, 기존 접근 방식은 대부분 상당한 양의 데이터를 사용하여 이러한 능력을 습득하는 데 의존합니다. 본 논문에서는 AudioRouter를 제안합니다. AudioRouter는 강화 학습 프레임워크로서, LALM이 외부 오디오 도구를 언제, 어떻게 사용할지 학습함으로써 오디오 이해 능력을 향상시킬 수 있도록 합니다. AudioRouter는 오디오 추론과 도구 사용을 직접적으로 연결하는 대신, 도구 사용을 명시적인 의사 결정 문제로 정의하고, 기반 추론 모델을 고정된 상태로 유지하면서 경량화된 라우팅 정책을 최적화합니다. 실험 결과, AudioRouter는 표준 오디오 이해 벤치마크에서 상당한 성능 향상을 달성했으며, 기존의 학습 방식과 비교하여 도구 사용을 학습하는 데 최대 600배 적은 데이터만 필요했습니다. 이러한 결과는 효과적인 도구 사용 학습이 LALM에서 인지 능력을 습득하는 데 있어 데이터 효율적이고 확장 가능한 대안을 제공할 수 있음을 시사합니다.
Large Audio Language Models (LALMs) have demonstrated strong capabilities in audio understanding and reasoning. However, their performance on fine grained auditory perception remains unreliable, and existing approaches largely rely on data intensive training to internalize perceptual abilities. We propose AudioRouter, a reinforcement learning framework that enables LALMs to improve audio understanding by learning when and how to use external audio tools. Rather than tightly coupling tool usage with audio reasoning, AudioRouter formulates tool use as an explicit decision making problem and optimizes a lightweight routing policy while keeping the underlying reasoning model frozen. Experimental results show that AudioRouter achieves substantial improvements on standard audio understanding benchmarks while requiring up to 600x less training data to learn tool usage compared with conventional training paradigms. These findings suggest that learning effective tool usage offers a data efficient and scalable alternative to internalizing perceptual abilities in LALMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.