평균 필드 서브샘플링을 이용한 협력 다중 에이전트 강화 학습을 통한 근사 나시 균형 학습
Learning Approximate Nash Equilibria in Cooperative Multi-Agent Reinforcement Learning via Mean-Field Subsampling
많은 대규모 플랫폼과 네트워크 제어 시스템은 중앙 집중식 의사 결정자가 엄격한 관찰 제약 조건 하에서 방대한 수의 에이전트와 상호 작용합니다. 이러한 응용 분야에 동기 부여를 받아, 우리는 통신 제약 환경에서 글로벌 에이전트와 $n$개의 동일한 로컬 에이전트로 구성된 협력 마르코프 게임을 연구합니다. 여기서 글로벌 에이전트는 각 타임 스텝마다 $k$개의 로컬 에이전트 상태의 부분 집합만 관찰합니다. 우리는 글로벌 에이전트가 고정된 로컬 정책에 대해 서브샘플링된 평균 필드 $Q$-러닝을 수행하고, 로컬 에이전트가 유도된 MDP에서 최적화를 수행하는 교대 학습 프레임워크 $( exttt{ALTERNATING-MARL})$를 제안합니다. 우리는 이러한 근사 최적 반응 동역학이 $ ilde{O}(1/ oot 3 elax k)$-근사 나시 균형으로 수렴함을 증명하며, 동시에 공동 상태 공간과 행동 공간 간의 샘플 복잡도에 대한 분리를 제공합니다. 마지막으로, 다중 로봇 제어 및 연합 최적화에 대한 수치 시뮬레이션을 통해 우리의 결과를 검증합니다.
Many large-scale platforms and networked control systems have a centralized decision maker interacting with a massive population of agents under strict observability constraints. Motivated by such applications, we study a cooperative Markov game with a global agent and $n$ homogeneous local agents in a communication-constrained regime, where the global agent only observes a subset of $k$ local agent states per time step. We propose an alternating learning framework $(\texttt{ALTERNATING-MARL})$, where the global agent performs subsampled mean-field $Q$-learning against a fixed local policy, and local agents update by optimizing in an induced MDP. We prove that these approximate best-response dynamics converge to an $\widetilde{O}(1/\sqrt{k})$-approximate Nash Equilibrium, while yielding a separation in the sample complexities between the joint state space and action space. Finally, we validate our results in numerical simulations for multi-robot control and federated optimization.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.