2602.13685v1 Feb 14, 2026 cs.SD

AuTAgent: 도구 기반 오디오 추론을 위한 강화 학습 프레임워크

AuTAgent: A Reinforcement Learning Framework for Tool-Augmented Audio Reasoning

Yuchen He
Yuchen He
Citations: 26,116
h-index: 7
Baolong Bi
Baolong Bi
Citations: 462
h-index: 13
Siqian Tong
Siqian Tong
Citations: 6
h-index: 1
Xuan Li
Xuan Li
Citations: 11
h-index: 3
Yiwei Wang
Yiwei Wang
Citations: 379
h-index: 12
Yujun Cai
Yujun Cai
Citations: 14
h-index: 2
Shenghua Liu
Shenghua Liu
Citations: 376
h-index: 12
C. Hao
C. Hao
Citations: 35
h-index: 4

대규모 오디오 언어 모델(LALM)은 인식 능력에서 뛰어난 성능을 보이지만, 정밀한 음향 측정이 필요한 복잡한 추론에는 어려움을 겪습니다. 외부 도구는 정확한 템포나 음높이와 같은 세밀한 특징을 추출할 수 있지만, 효과적인 통합은 여전히 어려운 문제입니다. 모든 도구를 무작정 사용하는 것은 정보 과부하를 초래하며, 프롬프트 기반 선택은 상황에 따라 달라지는 유용성을 평가하는 데 실패합니다. 이러한 문제를 해결하기 위해, 우리는 언제 어떤 도구를 사용할지 학습하는 강화 학습 프레임워크인 AuTAgent (Audio Tool Agent)를 제안합니다. 독창적인 Differential Reward 메커니즘을 사용한 희소 피드백 학습 전략을 통해, 에이전트는 관련 없는 도구를 필터링하고 기본 모델보다 성능 향상을 가져오는 경우에만 외부 지원을 활용하도록 학습합니다. 실험 결과는 AuTAgent가 검증 가능한 음향 증거를 제공함으로써 LALM의 표현 능력 한계를 보완한다는 것을 확인시켜줍니다. AuTAgent는 MMAU Test-mini 및 MMAR 벤치마크에서 각각 오픈 소스 및 폐쇄 소스 모델의 정확도를 4.20% / 6.20% 및 9.80% / 8.00% 향상시켰습니다. 또한, 추가적인 실험을 통해 뛰어난 일반화 성능을 입증했습니다. 우리는 외부 도구가 오디오 모델 추론 능력을 향상시키는 데 보완적인 역할을 한다는 것을 강조합니다.

Original Abstract

Large Audio Language Models (LALMs) excel at perception but struggle with complex reasoning requiring precise acoustic measurements. While external tools can extract fine-grained features like exact tempo or pitch, effective integration remains challenging: naively using all tools causes information overload, while prompt-based selection fails to assess context-dependent utility. To address this, we propose AuTAgent (Audio Tool Agent), a reinforcement learning framework that learns when and which tools to invoke. By employing a sparse-feedback training strategy with a novel Differential Reward mechanism, the agent learns to filter out irrelevant tools and invokes external assistance only when it yields a net performance gain over the base model. Experimental results confirm that AuTAgent complements the representation bottleneck of LALMs by providing verifiable acoustic evidence. It improves accuracy by 4.20% / 6.20% and 9.80% / 8.00% for open-source and closed-source backbones on the MMAU Test-mini and the MMAR benchmarks, respectively. In addition, further experiments demonstrate exceptional transferability. We highlight the complementary role of external tools in augmenting audio model reasoning.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!