PokeAgent 챌린지: 대규모 경쟁 및 장기 컨텍스트 학습
The PokeAgent Challenge: Competitive and Long-Context Learning at Scale
본 논문에서는 의사 결정 연구를 위한 대규모 벤치마크인 PokeAgent 챌린지를 소개합니다. PokeAgent는 포켓몬의 다중 에이전트 전투 시스템과 방대한 롤플레잉 게임(RPG) 환경을 기반으로 구축되었습니다. 부분적 관찰, 게임 이론적 추론, 그리고 장기 계획 수립은 최첨단 인공지능 연구에서 여전히 해결해야 할 과제이지만, 현실적인 조건 하에서 이 세 가지를 동시에 강조하는 벤치마크는 매우 드뭅니다. PokeAgent는 두 가지 상호 보완적인 트랙을 통해 이러한 한계를 극복하고자 합니다. 첫 번째는 전략적 추론과 부분적 관찰 환경에서의 일반화 능력을 평가하는 배틀 트랙이며, 두 번째는 장기 계획 수립 및 순차적 의사 결정을 요구하는 포켓몬 RPG 속도 달성 트랙입니다. 배틀 트랙은 2천만 건 이상의 전투 시퀀스 데이터와 함께, 고수준의 경쟁 플레이를 수행할 수 있는 휴리스틱, 강화 학습(RL), 그리고 대규모 언어 모델(LLM) 기반의 기준 모델들을 제공합니다. 속도 달성 트랙은 RPG 속도 달성 평가를 위한 최초의 표준화된 프레임워크를 제공하며, 모듈화되고 재현 가능한 LLM 기반 접근 방식의 비교를 위한 오픈 소스 다중 에이전트 오케스트레이션 시스템을 포함합니다. NeurIPS 2025 대회는 저희가 제공하는 리소스의 품질과 포켓몬에 대한 연구 커뮤니티의 관심을 검증했으며, 양쪽 트랙에서 100팀이 넘는 팀이 참가했으며, 우승 솔루션은 본 논문에 자세히 설명되어 있습니다. 참가자들의 제출물과 저희의 기준 모델 분석 결과, 범용 모델(LLM), 전문 모델(RL), 그리고 뛰어난 인간 플레이어 간의 상당한 격차가 존재하는 것을 확인할 수 있었습니다. BenchPress 평가 매트릭스와의 비교 분석 결과, 포켓몬 배틀은 기존 LLM 벤치마크와 거의 무관하며, 기존 벤치마크에서는 측정되지 않는 능력을 평가하고, 포켓몬을 RL 및 LLM 연구를 발전시킬 수 있는 미해결 벤치마크로 자리매김합니다. 저희는 배틀 트랙에 대한 실시간 리더보드를 제공하고, 속도 달성 트랙에 대한 자체적으로 포함된 평가 기능을 제공하는 살아있는 벤치마크로 전환했으며, 자세한 내용은 https://pokeagentchallenge.com 에서 확인할 수 있습니다.
We present the PokeAgent Challenge, a large-scale benchmark for decision-making research built on Pokemon's multi-agent battle system and expansive role-playing game (RPG) environment. Partial observability, game-theoretic reasoning, and long-horizon planning remain open problems for frontier AI, yet few benchmarks stress all three simultaneously under realistic conditions. PokeAgent targets these limitations at scale through two complementary tracks: our Battling Track, which calls for strategic reasoning and generalization under partial observability in competitive Pokemon battles, and our Speedrunning Track, which requires long-horizon planning and sequential decision-making in the Pokemon RPG. Our Battling Track supplies a dataset of 20M+ battle trajectories alongside a suite of heuristic, RL, and LLM-based baselines capable of high-level competitive play. Our Speedrunning Track provides the first standardized evaluation framework for RPG speedrunning, including an open-source multi-agent orchestration system for modular, reproducible comparisons of harness-based LLM approaches. Our NeurIPS 2025 competition validates both the quality of our resources and the research community's interest in Pokemon, with over 100 teams competing across both tracks and winning solutions detailed in our paper. Participant submissions and our baselines reveal considerable gaps between generalist (LLM), specialist (RL), and elite human performance. Analysis against the BenchPress evaluation matrix shows that Pokemon battling is nearly orthogonal to standard LLM benchmarks, measuring capabilities not captured by existing suites and positioning Pokemon as an unsolved benchmark that can drive RL and LLM research forward. We transition to a living benchmark with a live leaderboard for Battling and self-contained evaluation for Speedrunning at https://pokeagentchallenge.com.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.