2603.02266v1 Feb 28, 2026 cs.SD

확장(Scaling)이 실패할 때: 다단계 인지 기반 추론을 통해 LALM의 오디오 인지 저하를 완화하는 방법

When Scaling Fails: Mitigating Audio Perception Decay of LALMs via Multi-Step Perception-Aware Reasoning

Rui Mao
Rui Mao
Citations: 8
h-index: 2
Jingbo Zhu
Jingbo Zhu
Citations: 396
h-index: 10
Kai-Wei Chang
Kai-Wei Chang
Citations: 276
h-index: 3
Xiangnan Ma
Xiangnan Ma
Citations: 16
h-index: 2
Danqi Chen
Danqi Chen
Citations: 84
h-index: 4
Ziming Zhu
Ziming Zhu
Citations: 6
h-index: 2
Yuan Ge
Yuan Ge
Citations: 80
h-index: 3
Aokai Hao
Aokai Hao
Citations: 0
h-index: 0
Hai Zhao
Hai Zhao
Citations: 182
h-index: 5
Yifu Huo
Yifu Huo
Citations: 35
h-index: 3
Qingping Yang
Qingping Yang
Citations: 191
h-index: 3
Xiaoqian Liu
Xiaoqian Liu
Citations: 103
h-index: 6
Chenglong Wang
Chenglong Wang
Citations: 204
h-index: 9
Qiaozhi He
Qiaozhi He
Citations: 39
h-index: 4
Tong Xiao
Tong Xiao
Citations: 12
h-index: 2

테스트 시간 확장(Test-Time Scaling)은 추론 연산 자원을 확장하여 복잡한 문제를 해결하는 데 효과적인 것으로 나타났습니다. 그러나 대규모 오디오-언어 모델(LALM)에서 예상치 못한 현상이 나타납니다. 즉, 구조화된 추론 경로를 위한 모델을 추가 학습시킨 결과, 직접 답변을 위한 추가 학습에 비해 성능 향상이 미미하거나 오히려 감소하는 경우가 있습니다. 이를 조사하기 위해, 오디오 추론 오류를 정확하게 정량화하도록 설계된 평가 프레임워크인 CAFE를 소개합니다. 평가 결과, LALM은 추론 과정에서 인지 능력에 어려움을 겪으며, 추론 길이가 길어질수록 오디오 인지 능력 저하라는 중요한 병목 현상이 발생하는 것으로 나타났습니다. 이를 해결하기 위해, 동적 인지 기반 추론을 장려하고 복잡한 질문을 인지 정보가 풍부한 하위 문제로 분해하는 패러다임인 MPAR$^2$를 제안합니다. 강화 학습을 활용하여 MPAR$^2$는 CAFE에서 인지 성능을 31.74%에서 63.51%로 향상시키고, 인지 능력 저하를 효과적으로 완화하면서 MMAU 벤치마크에서 74.59%의 상당한 정확도를 달성했습니다. 추가 분석 결과, MPAR$^2$는 LALM이 오디오 입력을 더 잘 인식하고, 작업의 복잡성에 맞춰 추론 자원을 동적으로 조정하도록 돕는 것으로 나타났습니다.

Original Abstract

Test-Time Scaling has shown notable efficacy in addressing complex problems through scaling inference compute. However, within Large Audio-Language Models (LALMs), an unintuitive phenomenon exists: post-training models for structured reasoning trajectories results in marginal or even negative gains compared to post-training for direct answering. To investigate it, we introduce CAFE, an evaluation framework designed to precisely quantify audio reasoning errors. Evaluation results reveal LALMs struggle with perception during reasoning and encounter a critical bottleneck: reasoning performance suffers from audio perception decay as reasoning length extends. To address it, we propose MPAR$^2$, a paradigm that encourages dynamic perceptual reasoning and decomposes complex questions into perception-rich sub-problems. Leveraging reinforcement learning, MPAR$^2$ improves perception performance on CAFE from 31.74% to 63.51% and effectively mitigates perception decay, concurrently enhancing reasoning capabilities to achieve a significant 74.59% accuracy on the MMAU benchmark. Further analysis demonstrates that MPAR$^2$ reinforces LALMs to attend to audio input and dynamically adapts reasoning budget to match task complexity.

0 Citations
0 Influential
5 Altmetric
25.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!