복잡한 카드 게임을 위한 인과 강화 학습: 매직 더 게더링 벤치마크
Causal Reinforcement Learning for Complex Card Games: A Magic The Gathering Benchmark
인과 강화 학습(RL)은 순차적 의사 결정, 숨겨진 정보, 큰 규모의 마스크 처리된 행동 공간, 그리고 명시적인 인과 구조를 결합하는 복잡한 시스템에 대한 벤치마크가 부족합니다. 본 논문에서는 Magic: The Gathering을 기반으로 구축된 Gymnasium 벤치마크인 MTG-Causal-RL을 소개합니다. 이 벤치마크는 3,077차원의 부분 관측, 478개의 행동으로 구성된 마스크 처리된 이산 행동 공간, 다섯 가지 경쟁 표준 아키타입, 세 가지 보상 체계, 그리고 전략적 변수에 대한 수동으로 지정된 구조적 인과 모델(SCM)을 포함합니다. 각 에피소드는 인과 변수, SCM이 예측한 개입 효과, 그리고 요소별 보상 추적 정보를 제공하여, 인과적 보상 할당, 아키타입 간의 교차-아웃 전이, 그리고 정책 감사 가능성을 중요한 평가 지표로 만듭니다. 우리는 랜덤, 휴리스틱, 마스크 처리된 PPO, 인과적 세계 모델 기반 PPO 변형, 그리고 아키텍처가 일치하는 스칼라 제어 등 다양한 기준 모델을 적용했습니다. 우리는 승리 확률의 SCM 부모를 요소 정렬된 임계값 목표로 사용하고, 개입 보정 손실을 적용하는 인과 그래프 요소 기반 Advantage PPO(CGFA-PPO)를 기준 인과 에이전트로 제안합니다. 모든 비교는 쌍으로 연결된 시드, 쌍별 부트스트랩 신뢰 구간, 그리고 사전 등록된 패밀리 내의 Holm-Bonferroni 교정을 사용합니다. 마스크 처리된 PPO와 CGFA-PPO는 경쟁력 있는 분포 내 승률을 달성하며, 랜덤 기준 모델보다 우수합니다. 요소별 보정 추적 경로는 아키타입 간 전이 격차를 보여주며, 이는 스칼라 승률만으로는 파악할 수 없는 진단 정보를 제공합니다. 우리는 이 벤치마크, 기준 모델 결과, 그리고 전체 평가 프로토콜을 공개적으로 제공합니다. 전략적으로 풍부하고 부분적으로 관측되는 도메인과 명시적인 인과 인터페이스, 그리고 통계적 프로토콜을 결합함으로써, MTG-Causal-RL은 인과적 RL, 세계 모델, 그리고 LLM 에이전트 연구에 공유된 테스트베드를 제공하며, 현재 벤치마크로는 함께 다루기 어려운 질문들을 제기할 수 있습니다. 여기에는 마스크 처리된 행동 공간에서의 인과적 보상 할당, 아키타입 간의 구조적 전이, 그리고 SCM 기반 정책 감사 가능성이 포함됩니다.
Causal reinforcement learning (RL) lacks benchmarks for complex systems that combine sequential decision making, hidden information, large masked action spaces, and explicit causal structure. We introduce MTG-Causal-RL, a Gymnasium benchmark built on Magic: The Gathering with a 3,077-dimensional partial observation, a 478-action masked discrete action space, five competitive Standard archetypes, three reward schemes, and a hand-specified Structural Causal Model (SCM) over strategic variables. Every episode exposes causal variables, SCM-predicted intervention effects, and per-factor credit traces, making causal credit assignment, leave-one-out cross-archetype transfer, and policy auditability first-class metrics. We adapt a panel of reference baselines: random, heuristic, masked PPO, a causal-world-model PPO variant, and an architecture-matched scalar control. We propose Causal Graph-Factored Advantage PPO (CGFA-PPO) as a reference causal agent that uses SCM parents of win probability as factor-aligned critic targets with an intervention-calibration loss. All comparisons use paired seeds, paired-bootstrap confidence intervals, and Holm-Bonferroni correction within pre-registered families. Masked PPO and CGFA-PPO reach competitive in-distribution win rates and exceed the random baseline; per-factor calibration trajectories and leave-one-out transfer gaps expose diagnostic structure that scalar win rate alone cannot. We release the benchmark, reference-baseline results, and full evaluation protocol openly. By coupling a strategically rich, partially observed domain with an explicit causal interface and statistical protocol, MTG-Causal-RL gives causal-RL, world-model, and LLM-agent research a shared testbed for questions current benchmarks cannot pose together: causal credit assignment under masked action spaces, structural transfer across archetypes, and SCM-grounded policy auditability.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.