2601.23228v2 Jan 30, 2026 cs.AI

프로세스 보상을 이용한 다중 에이전트 시스템 확장

Scaling Multiagent Systems with Process Rewards

Ed Li
Ed Li
Citations: 32
h-index: 3
Junyu Ren
Junyu Ren
Citations: 8
h-index: 1
Cat Yan
Cat Yan
Citations: 8
h-index: 1

다중 에이전트 시스템은 전문화를 통해 복잡한 작업을 해결할 수 있는 가능성을 보여주었지만, 여러 에이전트를 동시에 조정하는 과정은 다음과 같은 두 가지 주요 과제를 안고 있습니다. (1) 에이전트 간의 공헌도 분배 문제, 그리고 (2) 비용이 많이 드는 다중 에이전트 시뮬레이션의 샘플 효율성 문제입니다. 본 연구에서는 이러한 문제를 해결하기 위해, 인공지능 피드백으로부터 얻은 각 행동에 대한 프로세스 보상을 활용하여 다중 에이전트 시스템을 조정하는 방법(MAPPA)을 제안합니다. MAPPA는 작업 완료 시점뿐만 아니라 개별 에이전트의 행동에 대한 공헌도를 부여함으로써, 정답 레이블 없이도 세밀한 지도를 제공하며, 각 시뮬레이션으로부터 최대한의 학습 신호를 추출합니다. 우리는 이 방법을 수학 문제 풀이 및 도구를 활용한 데이터 분석 작업에 적용하여 성능을 검증했습니다. MAPPA는 새로운 수학 문제에 대해 AIME에서 +5.0~17.5pp, AMC에서 +7.8~17.2pp의 성능 향상을 보였습니다. 데이터 분석 작업에서는 성공률이 +16.7pp 향상되었으며, 품질 지표는 최대 47%까지 개선되었습니다. 이는 각 행동에 대한 지도가 다양한 도메인에서 다양한 다중 에이전트 시스템의 성능 향상으로 이어질 수 있음을 입증합니다. 본 연구는 이러한 과제를 해결함으로써, 최소한의 인간 감독으로 복잡하고 장기적인 작업을 수행할 수 있는 다중 에이전트 시스템을 확장하는 첫걸음을 내딛습니다.

Original Abstract

While multiagent systems have shown promise for tackling complex tasks via specialization, finetuning multiple agents simultaneously faces two key challenges: (1) credit assignment across agents, and (2) sample efficiency of expensive multiagent rollouts. In this work, we propose finetuning multiagent systems with per-action process rewards from AI feedback (MAPPA) to address both. Through assigning credit to individual agent actions rather than only at task completion, MAPPA enables fine-grained supervision without ground truth labels while extracting maximal training signal from each rollout. We demonstrate our approach on competition math problems and tool-augmented data analysis tasks. On unseen math problems, MAPPA achieves +5.0--17.5pp on AIME and +7.8--17.2pp on AMC. For data analysis tasks, our method improves success rate by +16.7pp while quality metrics improve by up to 47%, validating that per-action supervision can lead to improvements across different multiagent systems on various domains. By addressing these challenges, our work takes a first step toward scaling multiagent systems for complex, long-horizon tasks with minimal human supervision.

1 Citations
0 Influential
1.5 Altmetric
8.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!