MAS-ProVe: 다중 에이전트 시스템의 과정 검증에 대한 이해
MAS-ProVe: Understanding the Process Verification of Multi-Agent Systems
거대 언어 모델(LLM)을 기반으로 구축된 다중 에이전트 시스템(MAS)은 추론 궤적에서 높은 변동성을 보이는 경우가 많습니다. 궤적의 중간 단계를 평가하는 과정 검증(process verification)은 일반적인 추론 환경에서 가능성을 보여주었으며, MAS의 조정을 유도하는 잠재적인 도구로 제안되었으나, MAS에서의 실제 효과는 여전히 불분명합니다. 이러한 공백을 메우기 위해, 우리는 다중 에이전트 시스템(MAS)을 위한 과정 검증에 대한 체계적인 실증 연구인 MAS-ProVe를 제안합니다. 본 연구는 세 가지 검증 패러다임(LLM-as-a-Judge, 보상 모델, 과정 보상 모델)을 포괄하며, 두 가지 검증 입도 수준(에이전트 수준 및 반복 수준)에서 평가를 수행합니다. 또한 5가지 대표적인 검증기와 4가지 문맥 관리 전략을 조사하고, 다수의 추론 벤치마크에서 6가지의 다양한 MAS 프레임워크에 대해 실험을 수행합니다. 연구 결과, 과정 수준 검증이 성능을 일관되게 향상시키지는 않으며 빈번하게 높은 분산을 보인다는 점을 발견했습니다. 이는 부분적인 다중 에이전트 궤적을 신뢰성 있게 평가하는 것이 어려움을 시사합니다. 연구된 방법들 중에서는 LLM-as-a-Judge가 일반적으로 보상 기반 접근법보다 우수한 성능을 보였으며, 훈련된 심판 모델이 범용 LLM보다 뛰어났습니다. 또한 심판으로서의 LLM과 단일 에이전트로서의 LLM 간의 성능 차이가 크지 않음을 관찰했으며, 검증 과정에서 문맥 길이와 성능 간의 상충 관계(trade-off)를 확인했습니다. 종합적으로, 우리의 결과는 MAS를 위한 효과적이고 견고한 과정 검증이 여전히 해결되지 않은 과제로 남아 있으며, 현재의 패러다임을 넘어서는 추가적인 발전이 필요함을 시사합니다. 코드는 https://github.com/Wang-ML-Lab/MAS-ProVe 에서 확인할 수 있습니다.
Multi-Agent Systems (MAS) built on Large Language Models (LLMs) often exhibit high variance in their reasoning trajectories. Process verification, which evaluates intermediate steps in trajectories, has shown promise in general reasoning settings, and has been suggested as a potential tool for guiding coordination of MAS; however, its actual effectiveness in MAS remains unclear. To fill this gap, we present MAS-ProVe, a systematic empirical study of process verification for multi-agent systems (MAS). Our study spans three verification paradigms (LLM-as-a-Judge, reward models, and process reward models), evaluated across two levels of verification granularity (agent-level and iteration-level). We further examine five representative verifiers and four context management strategies, and conduct experiments over six diverse MAS frameworks on multiple reasoning benchmarks. We find that process-level verification does not consistently improve performance and frequently exhibits high variance, highlighting the difficulty of reliably evaluating partial multi-agent trajectories. Among the methods studied, LLM-as-a-Judge generally outperforms reward-based approaches, with trained judges surpassing general-purpose LLMs. We further observe a small performance gap between LLMs acting as judges and as single agents, and identify a context-length-performance trade-off in verification. Overall, our results suggest that effective and robust process verification for MAS remains an open challenge, requiring further advances beyond current paradigms. Code is available at https://github.com/Wang-ML-Lab/MAS-ProVe.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.