멀티 에이전트 액터-크리틱을 이용한 분산 LLM 협업 학습
Learning Decentralized LLM Collaboration with Multi-Agent Actor Critic
최근 연구에서는 멀티 에이전트 강화 학습(MARL)을 통해 LLM 협업을 최적화하는 방법을 모색해 왔습니다. 그러나 대부분의 MARL 미세 조정 방식은 미리 정의된 실행 프로토콜에 의존하며, 이는 종종 중앙 집중식 실행을 필요로 합니다. 분산 LLM 협업은 실제 적용에서 더욱 매력적입니다. 왜냐하면 에이전트들이 병렬로 추론을 수행하고 유연한 배포가 가능하기 때문입니다. 또한, 현재의 방식은 미세 조정을 위해 몬테카를로 방법을 사용하는데, 이는 높은 분산을 가지므로 효과적인 학습을 위해서는 더 많은 샘플이 필요합니다. 액터-크리틱 방법은 이러한 문제점을 해결하기 위해 MARL에서 널리 사용되므로, 우리는 분산 LLM 협업을 최적화하기 위한 멀티 에이전트 액터-크리틱(MAAC) 방법을 개발했습니다. 본 논문에서는 이러한 MAAC 방법이 언제, 왜 유용한지 분석합니다. 우리는 중앙 집중식 크리틱을 사용하는 **CoLLM-CC**와 분산형 크리틱을 사용하는 **CoLLM-DC**라는 2가지 MAAC 방식을 제안합니다. 글쓰기, 코딩, 게임 플레이 영역에서의 실험 결과, 몬테카를로 방법과 CoLLM-DC는 짧은 시간 범위 및 밀도가 높은 보상 환경에서 CoLLM-CC와 유사한 성능을 달성할 수 있습니다. 그러나, 몬테카를로 방법은 장기적인 시간 범위 또는 희소한 보상 작업에서 성능이 저하되며, CoLLM-DC는 수렴하는 데 어려움을 겪습니다. 본 연구의 코드는 https://github.com/OpenMLRL/CoMLRL/releases/tag/v1.3.6 에서 확인할 수 있습니다.
Recent work has explored optimizing LLM collaboration through Multi-Agent Reinforcement Learning (MARL). However, most MARL fine-tuning approaches rely on predefined execution protocols, which often require centralized execution. Decentralized LLM collaboration is more appealing in practice, as agents can run inference in parallel with flexible deployments. Also, current approaches use Monte Carlo methods for fine-tuning, which suffer from high variance and thus require more samples to train effectively. Actor-critic methods are prevalent in MARL for dealing with these issues, so we developed Multi-Agent Actor-Critic (MAAC) methods to optimize decentralized LLM collaboration. In this paper, we analyze when and why these MAAC methods are beneficial. We propose 2 MAAC approaches, \textbf{CoLLM-CC} with a \textbf{C}entralized \textbf{C}ritic and \textbf{CoLLM-DC} with \textbf{D}ecentralized \textbf{C}ritics. Our experiments across writing, coding, and game-playing domains show that Monte Carlo methods and CoLLM-DC can achieve performance comparable to CoLLM-CC in short-horizon and dense-reward settings. However, they both underperform CoLLM-CC on long-horizon or sparse-reward tasks, where Monte Carlo methods require substantially more samples and CoLLM-DC struggles to converge. Our code is available at https://github.com/OpenMLRL/CoMLRL/releases/tag/v1.3.6.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.