MAS-Orchestra: 통합적인 조율 및 제어된 벤치마크를 통한 다중 에이전트 추론의 이해 및 개선
MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks
다중 에이전트 시스템(MAS)은 에이전트 간의 협력을 통해 향상된 지능을 제공할 잠재력이 있지만, 현재의 자동 MAS 설계 방식은 기대에 미치지 못하는 경우가 많습니다. 이러한 한계는 다음과 같은 두 가지 주요 요인에서 비롯됩니다. (1) 방법론적 복잡성: 에이전트 조율은 순차적이고 코드 수준의 실행을 통해 이루어지기 때문에 시스템 전체의 통합적인 추론을 제한하고 에이전트의 복잡성이 증가함에 따라 성능이 저하됩니다. (2) 효과 불확실성: MAS는 단일 에이전트 시스템(SAS)과 비교하여 실질적인 이점이 있는지 이해하지 못한 채 배포되는 경우가 많습니다. 우리는 MASOrchestra라는 훈련 시간 프레임워크를 제안합니다. 이 프레임워크는 MAS 조율을 전체적인 조율을 포함하는 함수 호출 강화 학습 문제로 공식화하여, 한 번에 전체 MAS를 생성합니다. MAS-Orchestra에서는 복잡하고 목표 지향적인 하위 에이전트를 호출 가능한 함수로 추상화하여 시스템 구조에 대한 전역적인 추론을 가능하게 하면서 내부 실행 세부 사항을 숨깁니다. MAS가 언제 그리고 왜 유익한지 엄격하게 연구하기 위해, 우리는 다섯 가지 축(깊이, 지평선, 폭, 병렬성, 강건성)을 기준으로 작업을 특성화하는 제어된 벤치마크인 MASBENCH를 소개합니다. 우리의 분석 결과, MAS의 성능 향상은 작업 구조, 검증 프로토콜 및 조율자와 하위 에이전트의 기능에 크게 의존하며, 보편적으로 적용되는 것은 아닙니다. 이러한 통찰력을 바탕으로, MAS-Orchestra는 수학적 추론, 다중 홉 질의 응답, 검색 기반 질의 응답 등 공개 벤치마크에서 일관된 성능 향상을 달성했으며, 강력한 기존 모델보다 10배 이상 효율적입니다. MAS-Orchestra와 MASBENCH는 다중 에이전트 지능을 추구하는 과정에서 MAS의 더 나은 훈련 및 이해를 가능하게 합니다.
While multi-agent systems (MAS) promise elevated intelligence through coordination of agents, current approaches to automatic MAS design under-deliver. Such shortcomings stem from two key factors: (1) methodological complexity - agent orchestration is performed using sequential, code-level execution that limits global system-level holistic reasoning and scales poorly with agent complexity - and (2) efficacy uncertainty - MAS are deployed without understanding if there are tangible benefits compared to single-agent systems (SAS). We propose MASOrchestra, a training-time framework that formulates MAS orchestration as a function-calling reinforcement learning problem with holistic orchestration, generating an entire MAS at once. In MAS-Orchestra, complex, goal-oriented subagents are abstracted as callable functions, enabling global reasoning over system structure while hiding internal execution details. To rigorously study when and why MAS are beneficial, we introduce MASBENCH, a controlled benchmark that characterizes tasks along five axes: Depth, Horizon, Breadth, Parallel, and Robustness. Our analysis reveals that MAS gains depend critically on task structure, verification protocols, and the capabilities of both orchestrator and subagents, rather than holding universally. Guided by these insights, MAS-Orchestra achieves consistent improvements on public benchmarks including mathematical reasoning, multi-hop QA, and search-based QA, while achieving more than 10x efficiency over strong baselines. Together, MAS-Orchestra and MASBENCH enable better training and understanding of MAS in the pursuit of multi-agent intelligence.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.