추론을 위한 협력적 다중 에이전트 테스트 시점 강화학습
Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning
다중 에이전트 시스템은 다양성과 교차 검증을 통해 견고성을 확보하며 많은 응용 분야에서 실용적인 LLM 기반 협력체로 발전해 왔습니다. 그러나 다중 에이전트 강화학습(MARL) 훈련은 자원 소모가 크고 불안정합니다. 팀원 간의 상호 적응은 비정상성(non-stationarity)을 유발하고, 보상은 희소하며 분산이 큰 경우가 많기 때문입니다. 이에 우리는 추론 시점에 구조화된 텍스트 경험을 다중 에이전트 숙의 과정에 주입하는 프레임워크인 MATTRL(다중 에이전트 테스트 시점 강화학습)을 제안합니다. MATTRL은 다중 턴 토론을 위해 전문가들로 구성된 다중 전문가 팀을 형성하고, 테스트 시점의 경험을 검색 및 통합하여 최종 의사 결정을 위한 합의를 도출합니다. 또한 턴 수준의 경험 풀(pool)을 구축하고 이를 대화에 다시 주입하기 위한 기여도 할당(credit assignment)을 연구합니다. 의학, 수학, 교육 분야의 까다로운 벤치마크에서 MATTRL은 다중 에이전트 베이스라인 대비 평균 3.67%, 유사한 단일 에이전트 베이스라인 대비 8.67%의 정확도 향상을 기록했습니다. 소거 연구를 통해 다양한 기여도 할당 방식을 검토하고 이것이 학습 성과에 미치는 영향을 상세히 비교 분석합니다. MATTRL은 별도의 튜닝 없이도 분포 변화에 강건한 다중 에이전트 추론을 가능하게 하는 안정적이고 효과적이며 효율적인 방법을 제공합니다.
Multi-agent systems have evolved into practical LLM-driven collaborators for many applications, gaining robustness from diversity and cross-checking. However, multi-agent RL (MARL) training is resource-intensive and unstable: co-adapting teammates induce non-stationarity, and rewards are often sparse and high-variance. Therefore, we introduce \textbf{Multi-Agent Test-Time Reinforcement Learning (MATTRL)}, a framework that injects structured textual experience into multi-agent deliberation at inference time. MATTRL forms a multi-expert team of specialists for multi-turn discussions, retrieves and integrates test-time experiences, and reaches consensus for final decision-making. We also study credit assignment for constructing a turn-level experience pool, then reinjecting it into the dialogue. Across challenging benchmarks in medicine, math, and education, MATTRL improves accuracy by an average of 3.67\% over a multi-agent baseline, and by 8.67\% over comparable single-agent baselines. Ablation studies examine different credit-assignment schemes and provide a detailed comparison of how they affect training outcomes. MATTRL offers a stable, effective and efficient path to distribution-shift-robust multi-agent reasoning without tuning.
AI Analysis
Korean Summary
Key Innovations
- 모델 가중치 업데이트 없이 추론 시점에 텍스트 경험을 주입하여 성능을 향상시키는 테스트 시간 적응(Test-Time Adaptation) 프레임워크
- 성공적인 대화 패턴을 추출하고 경험 풀을 구축하기 위한 그룹-대-에이전트(Group-to-Agent) 기여도 할당(Credit Assignment) 메커니즘 (Difference Rewards 등 활용)
- 팀 구성(Team Formation), 경험 증강 합의(Consensus), 보고서 합성(Report Synthesis)으로 이어지는 3단계 협업 프로세스
- 단일 에이전트와 다중 에이전트 시스템 간의 효율적인 선택을 돕는 적응형 라우터(Adaptive Router) 도입
Learning & Inference Impact
학습 관점에서 이 방법론은 전통적인 파라미터 튜닝(Fine-tuning)을 배제하고, 대신 LLM 심판(Judge)을 통해 에이전트 간 대화의 품질을 평가하여 고득점 발화만을 '텍스트 경험'으로 정제해 데이터베이스화하는 과정을 거칩니다. 추론(Inference) 단계에서는 에이전트들이 현재 문제와 유사한 과거의 성공적인 경험(전략, 추론 경로 등)을 실시간으로 검색(Retrieval)하여 프롬프트에 포함시킵니다. 이는 모델이 새로운 도메인이나 데이터 분포 변화(Distribution Shift)에 직면했을 때, 재학습 없이도 즉각적으로 적응하고 협업의 품질을 안정화할 수 있게 합니다. 다만, 다중 에이전트 롤아웃과 검색 과정으로 인해 단일 에이전트 대비 추론 비용과 지연 시간은 증가합니다.
Technical Difficulty
Estimated implementation complexity based on methodology.