부분 관찰 가능한 평균장 게임을 위한 순환 구조적 정책 기울기
Recurrent Structural Policy Gradient for Partially Observable Mean Field Games
평균장 게임(MFG)은 대규모 모집단 모델에서의 상호작용을 모델링하기 위한 원칙적인 프레임워크를 제공한다. 규모가 커짐에 따라 모집단 동역학은 결정론적이 되며, 불확실성은 오직 집계 충격이나 공통 노이즈를 통해서만 도입된다. 그러나 모델 프리(model-free) 방법은 분산이 너무 크고 정확한 방법은 확장이 어렵기 때문에 알고리즘의 발전은 제한적이었다. 최근의 하이브리드 구조적 방법(HSM)은 공통 노이즈에 대해 몬테카를로 롤아웃을 사용하고, 이를 해당 샘플들에 조건부로 기대 수익을 정확하게 추정하는 것과 결합한다. 하지만 HSM은 부분 관찰 가능 환경으로 확장되지 못했다. 우리는 공개 정보를 포함하는 환경을 위한 최초의 기록 인지(history-aware) HSM인 순환 구조적 정책 기울기(RSPG)를 제안한다. 또한 MFG를 위한 JAX 기반 프레임워크인 MFAX를 소개한다. 알려진 전이 동역학을 활용함으로써, RSPG는 최첨단 성능과 함께 한 자릿수 더 빠른 수렴 속도를 달성하며, 이질적인 에이전트, 공통 노이즈 및 기록 인지 정책을 포함하는 거시경제학 MFG를 최초로 해결한다. MFAX는 https://github.com/CWibault/mfax 에서 공개적으로 이용할 수 있다.
Mean Field Games (MFGs) provide a principled framework for modeling interactions in large population models: at scale, population dynamics become deterministic, with uncertainty entering only through aggregate shocks, or common noise. However, algorithmic progress has been limited since model-free methods are too high variance and exact methods scale poorly. Recent Hybrid Structural Methods (HSMs) use Monte Carlo rollouts for the common noise in combination with exact estimation of the expected return, conditioned on those samples. However, HSMs have not been scaled to Partially Observable settings. We propose Recurrent Structural Policy Gradient (RSPG), the first history-aware HSM for settings involving public information. We also introduce MFAX, our JAX-based framework for MFGs. By leveraging known transition dynamics, RSPG achieves state-of-the-art performance as well as an order-of-magnitude faster convergence and solves, for the first time, a macroeconomics MFG with heterogeneous agents, common noise and history-aware policies. MFAX is publicly available at: https://github.com/CWibault/mfax.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.