다중 에이전트 강화 학습을 위한 적응적 강건 추정기
Adaptive Robust Estimator for Multi-Agent Reinforcement Learning
다중 에이전트 협업은 대규모 언어 모델의 추론 능력을 향상시키는 강력한 패러다임으로 부상했지만, 상호 작용 수준의 모호성으로 인해 생성, 비판 및 수정 과정이 흐려져 에이전트 간의 기여도 분배가 어려워집니다. 또한, 이 환경에서의 정책 최적화는 꼬리 확률이 높고 노이즈가 많은 보상에 취약하여, 이점으로 인한 추정치를 왜곡시키고 불안정하거나 심지어 발산적인 학습을 유발할 수 있습니다. 이러한 문제점을 해결하기 위해, 우리는 협력적 추론을 위한 강건한 다중 에이전트 강화 학습 프레임워크를 제안합니다. 이 프레임워크는 두 가지 구성 요소로 이루어져 있습니다: 이중 에이전트 답변-비판-수정 (DACR)과 적응적 강건 추정기 (ARE)입니다. DACR은 추론을 구조화된 세 단계 파이프라인(답변, 비판, 수정)으로 분해하며, 각 에이전트의 기여도를 파트너의 성능에 명시적으로 연결합니다. ARE는 다중 에이전트 정책 최적화 과정에서 배치 경험의 평균을 강건하게 추정합니다. 수학적 추론 및 로봇 지능 벤치마크에서, 노이즈가 많은 보상 조건에서도, 우리의 방법은 균일하고 이질적인 환경 모두에서 기존 방법보다 일관되게 우수한 성능을 보였습니다. 이러한 결과는 보상 노이즈에 대한 더 강력한 강건성과 더 안정적인 학습 동역학을 나타내며, 노이즈가 많은 보상 신호로 인해 발생하는 최적화 실패를 효과적으로 방지합니다.
Multi-agent collaboration has emerged as a powerful paradigm for enhancing the reasoning capabilities of large language models, yet it suffers from interaction-level ambiguity that blurs generation, critique, and revision, making credit assignment across agents difficult. Moreover, policy optimization in this setting is vulnerable to heavy-tailed and noisy rewards, which can bias advantage estimation and trigger unstable or even divergent training. To address both issues, we propose a robust multi-agent reinforcement learning framework for collaborative reasoning, consisting of two components: Dual-Agent Answer-Critique-Rewrite (DACR) and an Adaptive Robust Estimator (ARE). DACR decomposes reasoning into a structured three-stage pipeline: answer, critique, and rewrite, while enabling explicit attribution of each agent's marginal contribution to its partner's performance. ARE provides robust estimation of batch experience means during multi-agent policy optimization. Across mathematical reasoning and embodied intelligence benchmarks, even under noisy rewards, our method consistently outperforms the baseline in both homogeneous and heterogeneous settings. These results indicate stronger robustness to reward noise and more stable training dynamics, effectively preventing optimization failures caused by noisy reward signals.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.