2601.09667v2 Jan 14, 2026 cs.AI

추론을 위한 협력적 다중 에이전트 테스트 시점 강화학습

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

Zhiyuan Hu

Citations: 304

h-index: 8

Yunhai Hu

Citations: 67

h-index: 2

Juncheng Liu

Citations: 28

h-index: 2

S. Li

Citations: 16

h-index: 2

Yucheng Wang

Citations: 57

h-index: 2

See-Kiong Ng

Citations: 248

h-index: 9

A. Luu

Citations: 5,973

h-index: 34

Xinxing Xu

Citations: 22

h-index: 2

Bryan Hooi

Citations: 1,744

h-index: 13

Cynthia Breazeal

Citations: 333

h-index: 5

Hae Won Park

Citations: 280

h-index: 6

Zhen Xu

Citations: 119

h-index: 5

다중 에이전트 시스템은 다양성과 교차 검증을 통해 견고성을 확보하며 많은 응용 분야에서 실용적인 LLM 기반 협력체로 발전해 왔습니다. 그러나 다중 에이전트 강화학습(MARL) 훈련은 자원 소모가 크고 불안정합니다. 팀원 간의 상호 적응은 비정상성(non-stationarity)을 유발하고, 보상은 희소하며 분산이 큰 경우가 많기 때문입니다. 이에 우리는 추론 시점에 구조화된 텍스트 경험을 다중 에이전트 숙의 과정에 주입하는 프레임워크인 MATTRL(다중 에이전트 테스트 시점 강화학습)을 제안합니다. MATTRL은 다중 턴 토론을 위해 전문가들로 구성된 다중 전문가 팀을 형성하고, 테스트 시점의 경험을 검색 및 통합하여 최종 의사 결정을 위한 합의를 도출합니다. 또한 턴 수준의 경험 풀(pool)을 구축하고 이를 대화에 다시 주입하기 위한 기여도 할당(credit assignment)을 연구합니다. 의학, 수학, 교육 분야의 까다로운 벤치마크에서 MATTRL은 다중 에이전트 베이스라인 대비 평균 3.67%, 유사한 단일 에이전트 베이스라인 대비 8.67%의 정확도 향상을 기록했습니다. 소거 연구를 통해 다양한 기여도 할당 방식을 검토하고 이것이 학습 성과에 미치는 영향을 상세히 비교 분석합니다. MATTRL은 별도의 튜닝 없이도 분포 변화에 강건한 다중 에이전트 추론을 가능하게 하는 안정적이고 효과적이며 효율적인 방법을 제공합니다.

Original Abstract

Multi-agent systems have evolved into practical LLM-driven collaborators for many applications, gaining robustness from diversity and cross-checking. However, multi-agent RL (MARL) training is resource-intensive and unstable: co-adapting teammates induce non-stationarity, and rewards are often sparse and high-variance. Therefore, we introduce \textbf{Multi-Agent Test-Time Reinforcement Learning (MATTRL)}, a framework that injects structured textual experience into multi-agent deliberation at inference time. MATTRL forms a multi-expert team of specialists for multi-turn discussions, retrieves and integrates test-time experiences, and reaches consensus for final decision-making. We also study credit assignment for constructing a turn-level experience pool, then reinjecting it into the dialogue. Across challenging benchmarks in medicine, math, and education, MATTRL improves accuracy by an average of 3.67\% over a multi-agent baseline, and by 8.67\% over comparable single-agent baselines. Ablation studies examine different credit-assignment schemes and provide a detailed comparison of how they affect training outcomes. MATTRL offers a stable, effective and efficient path to distribution-shift-robust multi-agent reasoning without tuning.

2 Citations

0 Influential

17 Altmetric

87.0 Score

Original PDF

AI Analysis

Korean Summary

이 논문은 대규모 언어 모델(LLM) 기반의 다중 에이전트 시스템을 위한 '다중 에이전트 테스트 시간 강화학습(MATTRL)' 프레임워크를 제안합니다. 기존의 다중 에이전트 강화학습(MARL)이 겪는 자원 집약적이고 불안정한 학습(비정상성, 희소 보상 등) 문제를 해결하기 위해, 모델의 가중치를 업데이트하는 대신 '구조화된 텍스트 경험'을 추론 시점(Test-Time)에 주입하는 방식을 채택했습니다. MATTRL은 전문가 에이전트 팀을 구성하고, 다중 턴 토론을 진행하며, 과거의 성공적인 추론 경험을 검색 및 통합하여 합의를 도출합니다. 또한, 그룹의 성과를 개별 에이전트의 기여로 분배하는 다양한 기여도 할당(Credit Assignment) 전략을 연구하여 고품질의 경험 풀을 구축합니다. 실험 결과, 의학, 수학, 교육 벤치마크에서 기존 다중 에이전트 및 단일 에이전트 베이스라인보다 우수한 성능을 달성했습니다.

Key Innovations

모델 가중치 업데이트 없이 추론 시점에 텍스트 경험을 주입하여 성능을 향상시키는 테스트 시간 적응(Test-Time Adaptation) 프레임워크
성공적인 대화 패턴을 추출하고 경험 풀을 구축하기 위한 그룹-대-에이전트(Group-to-Agent) 기여도 할당(Credit Assignment) 메커니즘 (Difference Rewards 등 활용)
팀 구성(Team Formation), 경험 증강 합의(Consensus), 보고서 합성(Report Synthesis)으로 이어지는 3단계 협업 프로세스
단일 에이전트와 다중 에이전트 시스템 간의 효율적인 선택을 돕는 적응형 라우터(Adaptive Router) 도입

Learning & Inference Impact

학습 관점에서 이 방법론은 전통적인 파라미터 튜닝(Fine-tuning)을 배제하고, 대신 LLM 심판(Judge)을 통해 에이전트 간 대화의 품질을 평가하여 고득점 발화만을 '텍스트 경험'으로 정제해 데이터베이스화하는 과정을 거칩니다. 추론(Inference) 단계에서는 에이전트들이 현재 문제와 유사한 과거의 성공적인 경험(전략, 추론 경로 등)을 실시간으로 검색(Retrieval)하여 프롬프트에 포함시킵니다. 이는 모델이 새로운 도메인이나 데이터 분포 변화(Distribution Shift)에 직면했을 때, 재학습 없이도 즉각적으로 적응하고 협업의 품질을 안정화할 수 있게 합니다. 다만, 다중 에이전트 롤아웃과 검색 과정으로 인해 단일 에이전트 대비 추론 비용과 지연 시간은 증가합니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!