MAS-Orchestra: 전체론적 오케스트레이션과 통제된 벤치마크를 통한 다중 에이전트 추론의 이해 및 개선
MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks
다중 에이전트 시스템(MAS)은 에이전트 간의 조정을 통해 향상된 지능을 약속하지만, 현재의 자동 MAS 설계 접근 방식은 기대에 미치지 못하고 있습니다. 이러한 결점은 두 가지 주요 요인에서 기인합니다. (1) 방법론적 복잡성: 에이전트 오케스트레이션이 순차적인 코드 수준 실행을 사용하여 수행되므로 전역적인 시스템 수준의 전체론적 추론을 제한하고 에이전트 복잡성에 따른 확장성이 떨어집니다. (2) 효용성 불확실성: 단일 에이전트 시스템(SAS)에 비해 실질적인 이점이 있는지 이해하지 못한 채 MAS가 배포됩니다. 우리는 전체 MAS를 한 번에 생성하는 전체론적 오케스트레이션을 통해 MAS 오케스트레이션을 함수 호출(function-calling) 강화 학습 문제로 정식화하는 훈련 단계 프레임워크인 MAS-Orchestra를 제안합니다. MAS-Orchestra에서 복잡하고 목표 지향적인 하위 에이전트(sub-agents)는 호출 가능한 함수로 추상화되어, 내부 실행 세부 사항은 숨기면서 시스템 구조에 대한 전역적 추론을 가능하게 합니다. MAS가 언제, 왜 유익한지 엄밀하게 연구하기 위해, 우리는 작업을 깊이(Depth), 지평(Horizon), 폭(Breadth), 병렬성(Parallel), 견고성(Robustness)의 5가지 축으로 특성화하는 통제된 벤치마크인 MASBENCH를 소개합니다. 우리의 분석에 따르면 MAS의 이득은 보편적으로 발생하는 것이 아니라 작업 구조, 검증 프로토콜, 오케스트레이터와 하위 에이전트 모두의 능력에 결정적으로 의존하는 것으로 나타났습니다. 이러한 통찰력을 바탕으로, MAS-Orchestra는 수학적 추론, 다중 홉(multi-hop) 질의응답, 검색 기반 질의응답을 포함한 공개 벤치마크에서 일관된 성능 향상을 달성했습니다. 종합적으로, MAS-Orchestra와 MASBENCH는 다중 에이전트 지능을 추구하는 과정에서 MAS에 대한 더 나은 훈련과 이해를 가능하게 합니다.
While multi-agent systems (MAS) promise elevated intelligence through coordination of agents, current approaches to automatic MAS design under-deliver. Such shortcomings stem from two key factors: (1) methodological complexity - agent orchestration is performed using sequential, code-level execution that limits global system-level holistic reasoning and scales poorly with agent complexity - and (2) efficacy uncertainty - MAS are deployed without understanding if there are tangible benefits compared to single-agent systems (SAS). We propose MAS-Orchestra, a training-time framework that formulates MAS orchestration as a function-calling reinforcement learning problem with holistic orchestration, generating an entire MAS at once. In MAS-Orchestra, complex, goal-oriented sub-agents are abstracted as callable functions, enabling global reasoning over system structure while hiding internal execution details. To rigorously study when and why MAS are beneficial, we introduce MASBENCH, a controlled benchmark that characterizes tasks along five axes: Depth, Horizon, Breadth, Parallel, and Robustness. Our analysis reveals that MAS gains depend critically on task structure, verification protocols, and the capabilities of both orchestrator and sub-agents, rather than holding universally. Guided by these insights, MAS-Orchestra achieves consistent improvements on public benchmarks including mathematical reasoning, multi-hop QA, and search-based QA. Together, MAS-Orchestra and MASBENCH enable better training and understanding of MAS in the pursuit of multi-agent intelligence.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.