프로세스 보상을 이용한 다중 에이전트 시스템 확장
Scaling Multiagent Systems with Process Rewards
다중 에이전트 시스템은 전문화를 통해 복잡한 작업을 해결할 수 있는 가능성을 보여주었지만, 여러 에이전트를 동시에 조정하는 과정은 다음과 같은 두 가지 주요 과제를 안고 있습니다. (1) 에이전트 간의 공헌도 분배 문제, 그리고 (2) 비용이 많이 드는 다중 에이전트 시뮬레이션의 샘플 효율성 문제입니다. 본 연구에서는 이러한 문제를 해결하기 위해, 인공지능 피드백으로부터 얻은 각 행동에 대한 프로세스 보상을 활용하여 다중 에이전트 시스템을 조정하는 방법(MAPPA)을 제안합니다. MAPPA는 작업 완료 시점뿐만 아니라 개별 에이전트의 행동에 대한 공헌도를 부여함으로써, 정답 레이블 없이도 세밀한 지도를 제공하며, 각 시뮬레이션으로부터 최대한의 학습 신호를 추출합니다. 우리는 이 방법을 수학 문제 풀이 및 도구를 활용한 데이터 분석 작업에 적용하여 성능을 검증했습니다. MAPPA는 새로운 수학 문제에 대해 AIME에서 +5.0~17.5pp, AMC에서 +7.8~17.2pp의 성능 향상을 보였습니다. 데이터 분석 작업에서는 성공률이 +16.7pp 향상되었으며, 품질 지표는 최대 47%까지 개선되었습니다. 이는 각 행동에 대한 지도가 다양한 도메인에서 다양한 다중 에이전트 시스템의 성능 향상으로 이어질 수 있음을 입증합니다. 본 연구는 이러한 과제를 해결함으로써, 최소한의 인간 감독으로 복잡하고 장기적인 작업을 수행할 수 있는 다중 에이전트 시스템을 확장하는 첫걸음을 내딛습니다.
While multiagent systems have shown promise for tackling complex tasks via specialization, finetuning multiple agents simultaneously faces two key challenges: (1) credit assignment across agents, and (2) sample efficiency of expensive multiagent rollouts. In this work, we propose finetuning multiagent systems with per-action process rewards from AI feedback (MAPPA) to address both. Through assigning credit to individual agent actions rather than only at task completion, MAPPA enables fine-grained supervision without ground truth labels while extracting maximal training signal from each rollout. We demonstrate our approach on competition math problems and tool-augmented data analysis tasks. On unseen math problems, MAPPA achieves +5.0--17.5pp on AIME and +7.8--17.2pp on AMC. For data analysis tasks, our method improves success rate by +16.7pp while quality metrics improve by up to 47%, validating that per-action supervision can lead to improvements across different multiagent systems on various domains. By addressing these challenges, our work takes a first step toward scaling multiagent systems for complex, long-horizon tasks with minimal human supervision.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.