2602.08272v1 Feb 09, 2026 cs.LG

다중 에이전트 시스템이 언제 더 뛰어난 성능을 보이는가? 에이전트 시스템의 학습 효율성 분석

When Do Multi-Agent Systems Outperform? Analysing the Learning Efficiency of Agentic Systems

Junwei Su
Junwei Su
Citations: 97
h-index: 5
Chuan-Yu Wu
Chuan-Yu Wu
Citations: 20
h-index: 2

강화 학습(RL)은 대규모 언어 모델(LLM)을 훈련하거나 미세 조정하는 데 중요한 방법으로 부상했으며, 상호 작용적 피드백을 통해 적응적이고 작업별 최적화를 가능하게 합니다. 특히 다중 에이전트 강화 학습(MARL)은 복잡한 작업을 특화된 하위 작업으로 분해하여 개별 에이전트가 학습함으로써 LLM 시스템의 능력과 효율성을 향상시킬 수 있는 유망한 방법을 제공합니다. 그러나 MARL이 단일 에이전트 강화 학습(SARL)보다 언제, 왜 더 우수한 성능을 보이는지에 대한 이론적 통찰력은 여전히 제한적이며, 적절한 강화 학습 프레임워크를 선택하는 데 불확실성을 야기합니다. 본 연구에서는 LLM의 맥락에서 MARL과 SARL의 비교적 샘플 효율성을 엄격하게 분석하여 이러한 중요한 격차를 해소합니다. 확률적으로 대략 정확(PAC) 프레임워크를 활용하여 LLM에 대한 SARL 및 MARL 설정을 형식적으로 정의하고, 명시적인 샘플 복잡도 경계를 도출하며, 작업 분해 및 정렬이 학습 효율성에 미치는 영향을 체계적으로 분석합니다. 연구 결과는 작업이 자연스럽게 독립적인 하위 작업으로 분해될 때 MARL이 샘플 복잡성을 개선한다는 것을 보여주는 반면, 종속적인 하위 작업은 MARL의 상대적 이점을 감소시킵니다. 또한, 독립적인 작업 분해를 강제할 때 발생할 수 있는 잠재적 불일치를 고려하여 작업 정렬 개념을 소개하고 분석하여, 그 균형을 정량화합니다. 이러한 이론적 통찰력은 경험적 불일치를 명확히 하고, 복잡한 LLM 시나리오에서 MARL 전략을 효과적으로 배포하기 위한 실질적인 기준을 제공합니다.

Original Abstract

Reinforcement Learning (RL) has emerged as a crucial method for training or fine-tuning large language models (LLMs), enabling adaptive, task-specific optimizations through interactive feedback. Multi-Agent Reinforcement Learning (MARL), in particular, offers a promising avenue by decomposing complex tasks into specialized subtasks learned by distinct interacting agents, potentially enhancing the ability and efficiency of LLM systems. However, theoretical insights regarding when and why MARL outperforms Single-Agent RL (SARL) remain limited, creating uncertainty in selecting the appropriate RL framework. In this paper, we address this critical gap by rigorously analyzing the comparative sample efficiency of MARL and SARL within the context of LLM. Leveraging the Probably Approximately Correct (PAC) framework, we formally define SARL and MARL setups for LLMs, derive explicit sample complexity bounds, and systematically characterize how task decomposition and alignment influence learning efficiency. Our results demonstrate that MARL improves sample complexity when tasks naturally decompose into independent subtasks, whereas dependent subtasks diminish MARL's comparative advantage. Additionally, we introduce and analyze the concept of task alignment, quantifying the trade-offs when enforcing independent task decomposition despite potential misalignments. These theoretical insights clarify empirical inconsistencies and provide practical criteria for deploying MARL strategies effectively in complex LLM scenarios.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!