동기화 없는 평균장 강화학습
Mean-Field Reinforcement Learning without Synchrony
평균장 강화학습(MF-RL)은 각 에이전트가 다른 에이전트들에게 의존하는 정도를 단일 요약 통계량인 '평균 행동(mean action)'으로 축소함으로써 다중 에이전트 강화학습을 대규모 집단으로 확장한다. 그러나 이러한 축소는 모든 에이전트가 매 타임스텝마다 행동할 것을 요구하며, 일부 에이전트가 유휴 상태일 때 평균 행동은 단순히 정의되지 않는다. 따라서 비동기성을 해결하려면 어떤 에이전트가 행동하는지와 무관하게 계속 정의될 수 있는 다른 요약 통계량이 필요하다. 각 관찰(observation)에 있는 에이전트의 비율인 모집단 분포 $\mu\in \Delta(\mathcal{O})$가 이 요구 사항을 충족한다. 이 분포의 차원은 $N$과 독립적이며, 교환 가능성(exchangeability) 하에서 각 에이전트의 보상과 상태 전이를 완전히 결정한다. 그러나 기존의 MF-RL 이론은 평균 행동을 기반으로 구축되어 $\mu$로 확장되지 않는다. 이에 따라 우리는 모집단 분포 $\mu$를 중심으로 시간적 평균장(Temporal Mean Field, TMF) 프레임워크를 처음부터 구축하여, 완전 동기식부터 순수 순차적 의사결정까지의 전체 스펙트럼을 단일 이론 내에서 포괄한다. 우리는 TMF 균형의 존재성 및 유일성을 증명하고, 단계별로 행동하는 에이전트 수와 무관하게 성립하는 $O(1/\sqrt{N})$ 유한 모집단 근사 상한을 설정하며, 정책 기울기 알고리즘(TMF-PG)이 유일한 균형으로 수렴함을 증명한다. 자원 선택 게임과 동적 대기열 게임에 대한 실험은 단계당 한 명의 에이전트가 행동하든 $N$명 전체가 행동하든 TMF-PG가 거의 동일한 성능을 달성하며, 근사 오차가 예측된 $O(1/\sqrt{N})$ 비율로 감소함을 확인해 준다.
Mean-field reinforcement learning (MF-RL) scales multi-agent RL to large populations by reducing each agent's dependence on others to a single summary statistic -- the mean action. However, this reduction requires every agent to act at every time step; when some agents are idle, the mean action is simply undefined. Addressing asynchrony therefore requires a different summary statistic -- one that remains defined regardless of which agents act. The population distribution $μ\in Δ(\mathcal{O})$ -- the fraction of agents at each observation -- satisfies this requirement: its dimension is independent of $N$, and under exchangeability it fully determines each agent's reward and transition. Existing MF-RL theory, however, is built on the mean action and does not extend to $μ$. We therefore construct the Temporal Mean Field (TMF) framework around the population distribution $μ$ from scratch, covering the full spectrum from fully synchronous to purely sequential decision-making within a single theory. We prove existence and uniqueness of TMF equilibria, establish an $O(1/\sqrt{N})$ finite-population approximation bound that holds regardless of how many agents act per step, and prove convergence of a policy gradient algorithm (TMF-PG) to the unique equilibrium. Experiments on a resource selection game and a dynamic queueing game confirm that TMF-PG achieves near-identical performance whether one agent or all $N$ act per step, with approximation error decaying at the predicted $O(1/\sqrt{N})$ rate.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.