ResMAS: LLM 기반 다중 에이전트 시스템에서의 회복 탄력성 최적화
ResMAS: Resilience Optimization in LLM-based Multi-agent Systems
여러 LLM 에이전트가 협업하여 복잡한 작업을 수행하는 LLM 기반 다중 에이전트 시스템(LLM-based MAS)은 다양한 분야에서 인상적인 성과를 보여주고 있습니다. 그러나 MAS는 일반적으로 서로 다른 장치나 환경에 분산되어 있어 에이전트 고장과 같은 외부 교란에 취약합니다. 기존 연구들은 적대적 공격과 이에 대한 방어 전략을 다루었으나, 내재적으로 회복 탄력성이 있는 시스템을 선제적으로 설계하기보다는 공격 발생 후 이를 감지하고 완화하는 사후 대응에 주로 초점을 맞추었습니다. 본 연구에서는 외부 교란 상황에서 LLM 기반 MAS의 회복 탄력성을 분석하고, 통신 토폴로지와 프롬프트 설계가 시스템의 회복 탄력성에 중요한 영향을 미친다는 사실을 밝혀냈습니다. 이러한 발견을 바탕으로, 우리는 MAS의 회복 탄력성을 향상시키기 위한 2단계 프레임워크인 ResMAS를 제안합니다. 첫째, MAS의 회복 탄력성을 예측하는 보상 모델을 학습시키고, 이를 기반으로 강화 학습을 통해 특정 작업에 적합한 회복 탄력적 토폴로지를 자동으로 설계하는 토폴로지 생성기를 학습시킵니다. 둘째, 각 에이전트가 다른 에이전트와 맺는 연결 및 상호작용을 고려하여 프롬프트를 정제하는 '토폴로지 인식 프롬프트 최적화' 방법을 도입합니다. 다양한 작업에 걸친 광범위한 실험 결과, 우리의 접근 방식은 여러 제약 조건 하에서 MAS의 회복 탄력성을 크게 향상시키는 것으로 나타났습니다. 또한, 본 프레임워크는 새로운 작업과 모델에 대해서도 강력한 일반화 성능을 보여주며, 회복 탄력적인 MAS 구축을 위한 잠재력을 입증했습니다.
Large Language Model-based Multi-Agent Systems (LLM-based MAS), where multiple LLM agents collaborate to solve complex tasks, have shown impressive performance in many areas. However, MAS are typically distributed across different devices or environments, making them vulnerable to perturbations such as agent failures. While existing works have studied the adversarial attacks and corresponding defense strategies, they mainly focus on reactively detecting and mitigating attacks after they occur rather than proactively designing inherently resilient systems. In this work, we study the resilience of LLM-based MAS under perturbations and find that both the communication topology and prompt design significantly influence system resilience. Motivated by these findings, we propose ResMAS: a two-stage framework for enhancing MAS resilience. First, we train a reward model to predict the MAS's resilience, based on which we train a topology generator to automatically design resilient topology for specific tasks through reinforcement learning. Second, we introduce a topology-aware prompt optimization method that refines each agent's prompt based on its connections and interactions with other agents. Extensive experiments across a range of tasks show that our approach substantially improves MAS resilience under various constraints. Moreover, our framework demonstrates strong generalization ability to new tasks and models, highlighting its potential for building resilient MASs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.