2602.08847v1 Feb 09, 2026 cs.LG

Dr. MAS: 다중 에이전트 LLM 시스템을 위한 안정적인 강화 학습

Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

Lang Feng
Lang Feng
Citations: 559
h-index: 10
Shuo He
Shuo He
Citations: 198
h-index: 8
Longtao Zheng
Longtao Zheng
Citations: 674
h-index: 9
Fuxiang Zhang
Fuxiang Zhang
Citations: 281
h-index: 7
Bo An
Bo An
Citations: 288
h-index: 3

다중 에이전트 LLM 시스템은 역할 분담을 통해 고급 추론 및 도구 사용을 가능하게 하지만, 이러한 시스템에 대한 신뢰성 있는 강화 학습(RL) 후속 훈련은 여전히 어렵습니다. 본 연구에서는 그룹 기반 RL을 다중 에이전트 LLM 시스템으로 확장할 때 발생하는 훈련 불안정성의 주요 원인을 이론적으로 분석합니다. GRPO 스타일의 최적화에서, 글로벌 정규화 기준이 다양한 에이전트의 보상 분포에서 벗어날 수 있으며, 이는 결국 기울기-노름 불안정성을 초래합니다. 이러한 발견을 바탕으로, 다중 에이전트 LLM 시스템을 위한 간단하고 안정적인 RL 훈련 방법인 Dr. MAS를 제안합니다. Dr. MAS는 에이전트별 보정 방법을 사용합니다. 즉, 각 에이전트의 자체 보상 통계를 사용하여 각 에이전트별로 장점을 정규화하여 기울기 크기를 조정하고 훈련을 크게 안정화시킵니다. 알고리즘 외에도, Dr. MAS는 다중 에이전트 LLM 시스템을 위한 엔드 투 엔드 RL 훈련 프레임워크를 제공하며, 확장 가능한 오케스트레이션, 유연한 에이전트별 LLM 서빙 및 최적화 구성, 그리고 LLM 액터 백엔드의 공유 리소스 스케줄링을 지원합니다. 우리는 Qwen2.5 및 Qwen3 시리즈 모델을 사용하여 다중 에이전트 수학 추론 및 다중 턴 검색 벤치마크에서 Dr. MAS를 평가했습니다. Dr. MAS는 일반적인 GRPO보다 뚜렷한 성능 향상을 보였습니다 (예: 수학 분야에서 avg@16 기준 +5.6%, pass@16 기준 +4.6% 향상, 검색 분야에서 avg@16 기준 +15.2%, pass@16 기준 +13.1% 향상) 동시에 기울기 급증 현상을 크게 줄였습니다. 또한, Dr. MAS는 이기종 에이전트-모델 할당 하에서도 높은 효율성을 유지하며 훈련 안정성을 향상시킵니다.

Original Abstract

Multi-agent LLM systems enable advanced reasoning and tool use via role specialization, yet reliable reinforcement learning (RL) post-training for such systems remains difficult. In this work, we theoretically pinpoint a key reason for training instability when extending group-based RL to multi-agent LLM systems. We show that under GRPO-style optimization, a global normalization baseline may deviate from diverse agents' reward distributions, which ultimately leads to gradient-norm instability. Based on this finding, we propose Dr. MAS, a simple and stable RL training recipe for multi-agent LLM systems. Dr. MAS uses an agent-wise remedy: normalizing advantages per agent using each agent's own reward statistics, which calibrates gradient scales and dramatically stabilizes training, both theoretically and empirically. Beyond the algorithm, Dr. MAS provides an end-to-end RL training framework for multi-agent LLM systems, supporting scalable orchestration, flexible per-agent LLM serving and optimization configs, and shared resource scheduling of LLM actor backends. We evaluate Dr. MAS on multi-agent math reasoning and multi-turn search benchmarks using Qwen2.5 and Qwen3 series models. Dr. MAS achieves clear gains over vanilla GRPO (e.g., +5.6\% avg@16 and +4.6\% pass@16 on math, and +15.2\% avg@16 and +13.1\% pass@16 on search) while largely eliminating gradient spikes. Moreover, it remains highly effective under heterogeneous agent-model assignments while improving efficiency.

2 Citations
0 Influential
5 Altmetric
27.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!