다중 에이전트 액터-크리틱을 활용한 분산형 LLM 협업 학습
Learning Decentralized LLM Collaboration with Multi-Agent Actor Critic
최근 연구에서는 다중 에이전트 강화학습(MARL)을 통해 LLM 협업을 최적화하는 방안을 모색해 왔습니다. 하지만 대부분의 MARL 미세 조정 접근 방식은 사전에 정의된 실행 프로토콜에 의존하며, 이는 종종 중앙 집중식 실행을 필요로 합니다. 분산형 LLM 협업은 에이전트들이 유연한 배포 환경에서 병렬로 추론을 실행할 수 있어 실제 적용 시 더 매력적입니다. 또한 기존 접근 방식은 미세 조정에 몬테카를로 방법을 사용하는데, 이는 분산(variance)이 커서 효과적인 학습을 위해 더 많은 샘플을 필요로 합니다. 액터-크리틱(Actor-critic) 방법은 이러한 문제를 해결하기 위해 MARL에서 널리 사용되므로, 우리는 분산형 LLM 협업을 최적화하기 위해 다중 에이전트 액터-크리틱(MAAC) 방법을 개발했습니다. 본 논문에서는 이러한 MAAC 방법이 언제, 왜 유용한지 분석합니다. 우리는 중앙 집중식 크리틱(Centralized Critic)을 사용하는 CoLLM-CC와 분산형 크리틱(Decentralized Critics)을 사용하는 CoLLM-DC, 두 가지 MAAC 접근 방식을 제안합니다. 글쓰기, 코딩, 게임 플레이 도메인에서의 실험 결과, 단기 호라이즌(short-horizon)과 밀집 보상(dense-reward) 설정에서는 몬테카를로 방법과 CoLLM-DC가 CoLLM-CC와 대등한 성능을 낼 수 있음을 보여줍니다. 하지만 장기 호라이즌이나 희소 보상(sparse-reward) 과제에서는 두 방법 모두 CoLLM-CC에 비해 성능이 떨어지며, 이때 몬테카를로 방법은 훨씬 더 많은 샘플을 필요로 하고 CoLLM-DC는 수렴에 어려움을 겪습니다. 코드는 https://github.com/OpenMLRL/CoMLRL/releases/tag/v1.3.2 에서 확인할 수 있습니다.
Recent work has explored optimizing LLM collaboration through Multi-Agent Reinforcement Learning (MARL). However, most MARL fine-tuning approaches rely on predefined execution protocols, which often require centralized execution. Decentralized LLM collaboration is more appealing in practice, as agents can run inference in parallel with flexible deployments. Also, current approaches use Monte Carlo methods for fine-tuning, which suffer from high variance and thus require more samples to train effectively. Actor-critic methods are prevalent in MARL for dealing with these issues, so we developed Multi-Agent Actor-Critic (MAAC) methods to optimize decentralized LLM collaboration. In this paper, we analyze when and why these MAAC methods are beneficial. We propose 2 MAAC approaches, \textbf{CoLLM-CC} with a \textbf{C}entralized \textbf{C}ritic and \textbf{CoLLM-DC} with \textbf{D}ecentralized \textbf{C}ritics. Our experiments across writing, coding, and game-playing domains show that Monte Carlo methods and CoLLM-DC can achieve performance comparable to CoLLM-CC in short-horizon and dense-reward settings. However, they both underperform CoLLM-CC on long-horizon or sparse-reward tasks, where Monte Carlo methods require substantially more samples and CoLLM-DC struggles to converge. Our code is available at https://github.com/OpenMLRL/CoMLRL/releases/tag/v1.3.2.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.