2605.02168v1 May 04, 2026 cs.AI

계획이 중요합니다! 장기 계획을 위한 효율적이고 불균형적인 다중 에이전트 협업 프레임워크

Planner Matters! An Efficient and Unbalanced Multi-agent Collaboration Framework for Long-horizon Planning

Kun Zhou
Kun Zhou
Citations: 10
h-index: 3
Sibo Zhu
Sibo Zhu
Citations: 130
h-index: 4
Wenyi Wu
Wenyi Wu
Citations: 40
h-index: 3
Biwei Huang
Biwei Huang
Citations: 15
h-index: 2

언어 모델(LM) 기반 에이전트는 자연어 지시를 통해 복잡한 작업을 자동화하는 데 유망한 능력을 보여주었지만, 여전히 장기적인 계획 수립 및 추론에 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 자동화를 세 가지 역할로 분해하는 향상된 다중 에이전트 프레임워크를 제안합니다. 즉, 고수준 의사 결정을 위한 플래너, 작업 실행을 위한 액터, 그리고 문맥 추론을 위한 메모리 관리자입니다. 이러한 모듈식 분해는 확립된 설계 패턴과 일치하지만, 우리의 핵심 기여는 체계적인 계산 할당 분석에 있습니다. 분석 결과, 계획 수립이 작업 성능에 가장 큰 영향을 미치는 요소임이 밝혀졌습니다. 실행 및 메모리 관리는 경쟁력 있는 결과를 얻기 위해 훨씬 적은 계산 능력과 모델 용량을 필요로 합니다. 이러한 통찰력을 바탕으로, 우리는 플래너 중심의 강화 학습 접근 방식을 도입합니다. 이 방식은 VLM(Vision-Language Model)을 판별기로 사용하여 경로 수준의 보상을 통해 플래너만 최적화하고, 다른 구성 요소는 고정합니다. 웹 탐색, 운영 체제 제어, 도구 사용을 포함하는 다양한 벤치마크에 대한 광범위한 실험 결과, 모델 용량과 학습을 고수준 계획에 집중하면 장기적인 에이전트 자동화에 강력하고 계산 효율적인 개선 효과를 얻을 수 있음을 보여줍니다. 저희의 코드는 공개적으로 제공됩니다.

Original Abstract

Language model (LM)-based agents have demonstrated promising capabilities in automating complex tasks from natural language instructions, yet they continue to struggle with long-horizon planning and reasoning. To address this, we propose an enhanced multi-agent framework that decomposes automation into three roles: a planner for high-level decision-making, an actor for task execution, and a memory manager for contextual reasoning. While this modular decomposition aligns with established design patterns, our core contribution lies in a systematic compute-allocation analysis, revealing that planning is the dominant factor influencing task performance. Execution and memory management require significantly less compute and model capacity to achieve competitive results. Building on these insights, we introduce a planner-centric reinforcement learning approach, which exclusively optimizes the planner using trajectory-level rewards from a VLM-as-judge, while freezing the other components. Extensive experiments on benchmarks spanning web navigation, OS control, and tool use demonstrate that concentrating model capacity and learning on high-level planning yields robust and compute-efficient improvements in long-horizon agent automation. Our code is publicly released.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!