다중 에이전트 강화학습을 이용한 생각의 사슬(Chain-of-Thought) 자기 압축
Self-Compression of Chain-of-Thought via Multi-Agent Reinforcement Learning
중복된 추론으로 인해 유발되는 추론 오버헤드는 상호작용 경험을 저해하고 대규모 추론 모델(Large Reasoning Models)의 배포에 심각한 병목 현상을 초래합니다. 기존의 강화학습(RL) 기반 솔루션은 길이 페널티와 결과 기반 보상을 결합하여 이 문제를 해결하려 합니다. 그러나 이러한 단순한 보상 가중 방식은 간결성을 강제할 경우 핵심 추론 논리가 훼손될 수 있어, 간결성과 정확성을 양립시키는 데 어려움이 있습니다. 본 연구에서는 필수적인 추론 논리는 보존하면서 불필요한 청크에만 선별적으로 페널티를 부여하는 다중 에이전트 RL 프레임워크를 제안하여 이러한 한계를 해결합니다. 우리의 프레임워크인 SCMA(Self-Compression via MARL)는 두 가지 특화된 에이전트, 즉 추론 과정을 논리적 청크로 분해하는 '분할 에이전트(Segmentation Agent)'와 각 청크의 중요도를 정량화하는 '평가 에이전트(Scoring Agent)'를 통해 중복 탐지 및 평가를 구현합니다. 분할 및 평가 에이전트는 훈련 과정에서 협력하여 중요도 가중 길이 페널티를 정의하고, 이를 통해 '추론 에이전트(Reasoning Agent)'가 배포 시 추론 오버헤드를 발생시키지 않으면서 핵심 논리에 우선순위를 두도록 유도합니다. 다양한 모델 규모에 걸친 실증적 평가 결과, SCMA는 응답 길이를 11.1%에서 39.0%까지 감소시키면서도 정확도는 4.33%에서 10.02%까지 향상시키는 것으로 나타났습니다. 또한, 소거 연구(ablation studies)와 정성적 분석을 통해 MARL 프레임워크 내의 시너지 최적화가 창발적 행동을 촉진하여 일반적인 RL 패러다임보다 더 강력한 대규모 추론 모델을 생성함을 입증했습니다.
The inference overhead induced by redundant reasoning undermines the interactive experience and severely bottlenecks the deployment of Large Reasoning Models. Existing reinforcement learning (RL)-based solutions tackle this problem by coupling a length penalty with outcome-based rewards. This simplistic reward weighting struggles to reconcile brevity with accuracy, as enforcing brevity may compromise critical reasoning logic. In this work, we address this limitation by proposing a multi-agent RL framework that selectively penalizes redundant chunks, while preserving essential reasoning logic. Our framework, Self-Compression via MARL (SCMA), instantiates redundancy detection and evaluation through two specialized agents: \textbf{a Segmentation Agent} for decomposing the reasoning process into logical chunks, and \textbf{a Scoring Agent} for quantifying the significance of each chunk. The Segmentation and Scoring agents collaboratively define an importance-weighted length penalty during training, incentivizing \textbf{a Reasoning Agent} to prioritize essential logic without introducing inference overhead during deployment. Empirical evaluations across model scales demonstrate that SCMA reduces response length by 11.1\% to 39.0\% while boosting accuracy by 4.33\% to 10.02\%. Furthermore, ablation studies and qualitative analysis validate that the synergistic optimization within the MARL framework fosters emergent behaviors, yielding more powerful LRMs compared to vanilla RL paradigms.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.