ROMA: 장기 다중 에이전트 시스템을 위한 재귀적 개방형 메타 에이전트 프레임워크
ROMA: Recursive Open Meta-Agent Framework for Long-Horizon Multi-Agent Systems
현재의 에이전트 프레임워크들은 장기 작업(long-horizon tasks)에서 성능이 저조합니다. 추론의 깊이가 깊어질수록 순차적 오케스트레이션은 불안정해지고, 컨텍스트 윈도우의 제약으로 인해 성능이 저하되며, 불투명한 실행 추적은 오류의 원인을 찾거나 디버깅하는 것을 어렵게 만듭니다. 본 논문에서는 재귀적 작업 분해와 구조화된 집계(aggregation)를 통해 이러한 한계를 해결하는 도메인 불가지론적 프레임워크인 ROMA(Recursive Open Meta-Agents)를 소개합니다. ROMA는 목표를 병렬 실행 가능한 의존성 인식 하위 작업 트리로 분해하고, 집계 과정에서 중간 결과를 압축 및 검증하여 컨텍스트 증가를 제어합니다. 이 프레임워크는 에이전트 구성을 네 가지 모듈형 역할(작업 분해 여부를 결정하는 Atomizer, Planner, Executor, Aggregator)로 표준화하여, 모델 선택과 오케스트레이션을 명확히 분리하고 투명한 계층적 실행 추적을 가능하게 합니다. 이러한 설계는 비용, 지연 시간, 성능에 따라 모델과 도구를 혼합하는 이질적인 다중 에이전트 시스템을 지원합니다. 파인 튜닝 없이 특정 작업에 ROMA를 적용하기 위해, 인터페이스 규약을 유지하면서 ROMA의 컴포넌트 계층 내에서 프롬프트를 탐색하는 개선된 유전-파레토(Genetic-Pareto) 프롬프트 제안기인 GEPA+를 추가로 소개합니다. 실험 결과, ROMA와 GEPA+의 조합은 추론 및 장문 생성 벤치마크에서 선도적인 시스템 수준의 성능을 보여주었습니다. 상충되는 웹 증거에 대한 추론을 평가하는 SEAL-0에서 GLM-4.6 기반의 ROMA는 Kimi-Researcher 대비 정확도를 9.9% 향상시켰습니다. 또한 장문 작성 벤치마크인 EQ-Bench에서 ROMA는 DeepSeek-V3가 Claude Sonnet 4.5와 같은 주요 비공개 소스 모델의 성능과 대등한 수준에 도달할 수 있게 했습니다. 우리의 결과는 재귀적이고 모듈화된 에이전트 아키텍처가 해석 가능하고 유연하며 모델에 구애받지 않으면서도 추론 깊이를 확장할 수 있음을 입증합니다.
Current agentic frameworks underperform on long-horizon tasks. As reasoning depth increases, sequential orchestration becomes brittle, context windows impose hard limits that degrade performance, and opaque execution traces make failures difficult to localize or debug. We introduce ROMA (Recursive Open Meta-Agents), a domain-agnostic framework that addresses these limitations through recursive task decomposition and structured aggregation. ROMA decomposes goals into dependency-aware subtask trees that can be executed in parallel, while aggregation compresses and validates intermediate results to control context growth. Our framework standardizes agent construction around four modular roles --Atomizer (which decides whether a task should be decomposed), Planner, Executor, and Aggregator -- which cleanly separate orchestration from model selection and enable transparent, hierarchical execution traces. This design supports heterogeneous multi-agent systems that mix models and tools according to cost, latency, and capability. To adapt ROMA to specific tasks without fine-tuning, we further introduce GEPA$+$, an improved Genetic-Pareto prompt proposer that searches over prompts within ROMA's component hierarchy while preserving interface contracts. We show that ROMA, combined with GEPA+, delivers leading system-level performance on reasoning and long-form generation benchmarks. On SEAL-0, which evaluates reasoning over conflicting web evidence, ROMA instantiated with GLM-4.6 improves accuracy by 9.9\% over Kimi-Researcher. On EQ-Bench, a long-form writing benchmark, ROMA enables DeepSeek-V3 to match the performance of leading closed-source models such as Claude Sonnet 4.5. Our results demonstrate that recursive, modular agent architectures can scale reasoning depth while remaining interpretable, flexible, and model-agnostic.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.