2602.08847v1 Feb 09, 2026 cs.LG

Dr. MAS: 다중 에이전트 LLM 시스템을 위한 안정적인 강화 학습

Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

Lang Feng
Lang Feng
Citations: 470
h-index: 8
Shuo He
Shuo He
Citations: 171
h-index: 6
Longtao Zheng
Longtao Zheng
Citations: 606
h-index: 9
Fuxiang Zhang
Fuxiang Zhang
Citations: 265
h-index: 7
Bo An
Bo An
Citations: 213
h-index: 3

다중 에이전트 LLM 시스템은 역할 분담을 통해 고급 추론 및 도구 사용을 가능하게 하지만, 이러한 시스템에 대한 신뢰성 있는 강화 학습(RL) 후속 훈련은 여전히 어렵습니다. 본 연구에서는 그룹 기반 RL을 다중 에이전트 LLM 시스템으로 확장할 때 발생하는 훈련 불안정성의 주요 원인을 이론적으로 분석합니다. GRPO 스타일의 최적화에서, 글로벌 정규화 기준이 다양한 에이전트의 보상 분포에서 벗어날 수 있으며, 이는 결국 기울기-노름 불안정성을 초래합니다. 이러한 발견을 바탕으로, 다중 에이전트 LLM 시스템을 위한 간단하고 안정적인 RL 훈련 방법인 Dr. MAS를 제안합니다. Dr. MAS는 에이전트별 보정 방법을 사용합니다. 즉, 각 에이전트의 자체 보상 통계를 사용하여 각 에이전트별로 장점을 정규화하여 기울기 크기를 조정하고 훈련을 크게 안정화시킵니다. 알고리즘 외에도, Dr. MAS는 다중 에이전트 LLM 시스템을 위한 엔드 투 엔드 RL 훈련 프레임워크를 제공하며, 확장 가능한 오케스트레이션, 유연한 에이전트별 LLM 서빙 및 최적화 구성, 그리고 LLM 액터 백엔드의 공유 리소스 스케줄링을 지원합니다. 우리는 Qwen2.5 및 Qwen3 시리즈 모델을 사용하여 다중 에이전트 수학 추론 및 다중 턴 검색 벤치마크에서 Dr. MAS를 평가했습니다. Dr. MAS는 일반적인 GRPO보다 뚜렷한 성능 향상을 보였습니다 (예: 수학 분야에서 avg@16 기준 +5.6%, pass@16 기준 +4.6% 향상, 검색 분야에서 avg@16 기준 +15.2%, pass@16 기준 +13.1% 향상) 동시에 기울기 급증 현상을 크게 줄였습니다. 또한, Dr. MAS는 이기종 에이전트-모델 할당 하에서도 높은 효율성을 유지하며 훈련 안정성을 향상시킵니다.

Original Abstract

Multi-agent LLM systems enable advanced reasoning and tool use via role specialization, yet reliable reinforcement learning (RL) post-training for such systems remains difficult. In this work, we theoretically pinpoint a key reason for training instability when extending group-based RL to multi-agent LLM systems. We show that under GRPO-style optimization, a global normalization baseline may deviate from diverse agents' reward distributions, which ultimately leads to gradient-norm instability. Based on this finding, we propose Dr. MAS, a simple and stable RL training recipe for multi-agent LLM systems. Dr. MAS uses an agent-wise remedy: normalizing advantages per agent using each agent's own reward statistics, which calibrates gradient scales and dramatically stabilizes training, both theoretically and empirically. Beyond the algorithm, Dr. MAS provides an end-to-end RL training framework for multi-agent LLM systems, supporting scalable orchestration, flexible per-agent LLM serving and optimization configs, and shared resource scheduling of LLM actor backends. We evaluate Dr. MAS on multi-agent math reasoning and multi-turn search benchmarks using Qwen2.5 and Qwen3 series models. Dr. MAS achieves clear gains over vanilla GRPO (e.g., +5.6\% avg@16 and +4.6\% pass@16 on math, and +15.2\% avg@16 and +13.1\% pass@16 on search) while largely eliminating gradient spikes. Moreover, it remains highly effective under heterogeneous agent-model assignments while improving efficiency.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!