2602.18026v1 Feb 20, 2026 cs.MA

동기화 없는 평균장 강화학습

Mean-Field Reinforcement Learning without Synchrony

Shangtong Yang
Shangtong Yang
Citations: 25
h-index: 2

평균장 강화학습(MF-RL)은 각 에이전트가 다른 에이전트들에게 의존하는 정도를 단일 요약 통계량인 '평균 행동(mean action)'으로 축소함으로써 다중 에이전트 강화학습을 대규모 집단으로 확장한다. 그러나 이러한 축소는 모든 에이전트가 매 타임스텝마다 행동할 것을 요구하며, 일부 에이전트가 유휴 상태일 때 평균 행동은 단순히 정의되지 않는다. 따라서 비동기성을 해결하려면 어떤 에이전트가 행동하는지와 무관하게 계속 정의될 수 있는 다른 요약 통계량이 필요하다. 각 관찰(observation)에 있는 에이전트의 비율인 모집단 분포 $\mu\in \Delta(\mathcal{O})$가 이 요구 사항을 충족한다. 이 분포의 차원은 $N$과 독립적이며, 교환 가능성(exchangeability) 하에서 각 에이전트의 보상과 상태 전이를 완전히 결정한다. 그러나 기존의 MF-RL 이론은 평균 행동을 기반으로 구축되어 $\mu$로 확장되지 않는다. 이에 따라 우리는 모집단 분포 $\mu$를 중심으로 시간적 평균장(Temporal Mean Field, TMF) 프레임워크를 처음부터 구축하여, 완전 동기식부터 순수 순차적 의사결정까지의 전체 스펙트럼을 단일 이론 내에서 포괄한다. 우리는 TMF 균형의 존재성 및 유일성을 증명하고, 단계별로 행동하는 에이전트 수와 무관하게 성립하는 $O(1/\sqrt{N})$ 유한 모집단 근사 상한을 설정하며, 정책 기울기 알고리즘(TMF-PG)이 유일한 균형으로 수렴함을 증명한다. 자원 선택 게임과 동적 대기열 게임에 대한 실험은 단계당 한 명의 에이전트가 행동하든 $N$명 전체가 행동하든 TMF-PG가 거의 동일한 성능을 달성하며, 근사 오차가 예측된 $O(1/\sqrt{N})$ 비율로 감소함을 확인해 준다.

Original Abstract

Mean-field reinforcement learning (MF-RL) scales multi-agent RL to large populations by reducing each agent's dependence on others to a single summary statistic -- the mean action. However, this reduction requires every agent to act at every time step; when some agents are idle, the mean action is simply undefined. Addressing asynchrony therefore requires a different summary statistic -- one that remains defined regardless of which agents act. The population distribution $μ\in Δ(\mathcal{O})$ -- the fraction of agents at each observation -- satisfies this requirement: its dimension is independent of $N$, and under exchangeability it fully determines each agent's reward and transition. Existing MF-RL theory, however, is built on the mean action and does not extend to $μ$. We therefore construct the Temporal Mean Field (TMF) framework around the population distribution $μ$ from scratch, covering the full spectrum from fully synchronous to purely sequential decision-making within a single theory. We prove existence and uniqueness of TMF equilibria, establish an $O(1/\sqrt{N})$ finite-population approximation bound that holds regardless of how many agents act per step, and prove convergence of a policy gradient algorithm (TMF-PG) to the unique equilibrium. Experiments on a resource selection game and a dynamic queueing game confirm that TMF-PG achieves near-identical performance whether one agent or all $N$ act per step, with approximation error decaying at the predicted $O(1/\sqrt{N})$ rate.

0 Citations
0 Influential
1 Altmetric
5.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!