MASPO: LLM 기반 다중 에이전트 시스템을 위한 공동 프롬프트 최적화
MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems
대규모 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)은 복잡한 협업 작업을 해결하는 데 유망한 가능성을 보여주며, 일반적으로 에이전트는 역할별 프롬프트를 통해 조정됩니다. 이러한 프롬프트의 품질은 매우 중요하지만, 상호 작용하는 에이전트 간에 프롬프트를 공동으로 최적화하는 것은 여전히 어려운 과제이며, 이는 주로 개별 에이전트의 목표와 전체 시스템의 목표 간의 불일치 때문입니다. 이러한 문제를 해결하기 위해, 우리는 시스템 전체에 걸쳐 프롬프트를 자동으로 반복적으로 개선하도록 설계된 새로운 프롬프트 최적화 프레임워크인 MASPO를 소개합니다. MASPO의 핵심적인 혁신은 공동 평가 메커니즘으로, 이는 프롬프트를 단순히 개별적인 유효성으로 평가하는 것이 아니라, 후속 에이전트의 성공을 촉진하는 능력으로 평가합니다. 이를 통해 개별적인 상호 작용과 전반적인 결과 간의 격차를 없애고, 정답 레이블에 의존하지 않습니다. 또한, MASPO는 고차원 프롬프트 공간을 효율적으로 탐색하기 위해 데이터 기반의 진화적 빔 서치를 사용합니다. 6가지 다양한 작업에 대한 광범위한 실험적 평가 결과, MASPO는 최첨단 프롬프트 최적화 방법보다 일관되게 우수한 성능을 보이며, 평균 정확도 향상이 2.9%에 달했습니다. 저희 코드는 https://github.com/wangzx1219/MASPO 에서 제공됩니다.
Large language model (LLM)-based Multi-agent systems (MAS) have shown promise in tackling complex collaborative tasks, where agents are typically orchestrated via role-specific prompts. While the quality of these prompts is pivotal, jointly optimizing them across interacting agents remains a non-trivial challenge, primarily due to the misalignment between local agent objectives and holistic system goals. To address this, we introduce MASPO, a novel framework designed to automatically and iteratively refine prompts across the entire system. A core innovation of MASPO is its joint evaluation mechanism, which assesses prompts not merely by their local validity, but by their capacity to facilitate downstream success for successor agents. This effectively bridges the gap between local interactions and global outcomes without relying on ground-truth labels. Furthermore, MASPO employs a data-driven evolutionary beam search to efficiently navigate the high-dimensional prompt space. Extensive empirical evaluations across 6 diverse tasks demonstrate that MASPO consistently outperforms state-of-the-art prompt optimization methods, achieving an average accuracy improvement of 2.9. We release our code at https://github.com/wangzx1219/MASPO.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.