TowerMind: 에이전트로서의 LLM을 위한 타워 디펜스 게임 학습 환경 및 벤치마크
TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents
대규모 언어 모델(LLM)의 최근 비약적인 발전은 이를 에이전트를 위한 유망한 패러다임으로 자리매김하게 했으며, 장기 계획 및 의사 결정이 다양한 시나리오와 작업에 적응하기 위한 핵심적인 범용 능력으로 부상하고 있습니다. 실시간 전략(RTS) 게임은 고유한 게임 플레이 특성상 거시적인 전략 계획과 미시적인 전술적 적응 및 행동 실행이 모두 필요하므로, 이 두 가지 능력을 평가하기 위한 이상적인 테스트베드 역할을 합니다. 기존의 RTS 게임 기반 환경들은 상대적으로 높은 연산 요구량을 필요로 하거나 텍스트 관측(observation) 지원이 부족하여, LLM 평가를 위한 RTS 게임 활용을 제한해 왔습니다. 이에 동기를 얻어, 우리는 RTS 게임의 하위 장르인 타워 디펜스(TD)에 기반을 둔 새로운 환경인 타워마인드(TowerMind)를 제안합니다. 타워마인드는 LLM 평가를 위한 RTS 게임의 핵심적인 평가 강점을 유지하면서도, 낮은 연산 요구량과 픽셀 기반, 텍스트 및 구조화된 게임 상태 표현을 포함한 멀티모달 관측 공간을 특징으로 합니다. 또한, 타워마인드는 모델 환각(hallucination) 평가를 지원하며 높은 수준의 사용자 정의 가능성을 제공합니다. 우리는 다양한 멀티모달 입력 설정 하에서 널리 사용되는 여러 LLM을 평가하기 위해 5개의 벤치마크 레벨을 설계했습니다. 연구 결과, 능력 및 환각 차원 모두에서 LLM과 인간 전문가 사이에 뚜렷한 성능 격차가 있음이 밝혀졌습니다. 실험은 또한 부적절한 계획 검증, 의사 결정에서의 다결과성(multifinality) 부족, 비효율적인 행동 사용과 같은 LLM 행동의 주요 한계점을 강조합니다. 우리는 또한 두 가지 고전적인 강화 학습 알고리즘인 Ape-X DQN과 PPO를 평가했습니다. 경량화된 멀티모달 설계를 제공함으로써, 타워마인드는 기존 RTS 게임 기반 환경의 지형을 보완하고 AI 에이전트 분야에 새로운 벤치마크를 도입합니다. 소스 코드는 GitHub(https://github.com/tb6147877/TowerMind)에 공개되어 있습니다.
Recent breakthroughs in Large Language Models (LLMs) have positioned them as a promising paradigm for agents, with long-term planning and decision-making emerging as core general-purpose capabilities for adapting to diverse scenarios and tasks. Real-time strategy (RTS) games serve as an ideal testbed for evaluating these two capabilities, as their inherent gameplay requires both macro-level strategic planning and micro-level tactical adaptation and action execution. Existing RTS game-based environments either suffer from relatively high computational demands or lack support for textual observations, which has constrained the use of RTS games for LLM evaluation. Motivated by this, we present TowerMind, a novel environment grounded in the tower defense (TD) subgenre of RTS games. TowerMind preserves the key evaluation strengths of RTS games for assessing LLMs, while featuring low computational demands and a multimodal observation space, including pixel-based, textual, and structured game-state representations. In addition, TowerMind supports the evaluation of model hallucination and provides a high degree of customizability. We design five benchmark levels to evaluate several widely used LLMs under different multimodal input settings. The results reveal a clear performance gap between LLMs and human experts across both capability and hallucination dimensions. The experiments further highlight key limitations in LLM behavior, such as inadequate planning validation, a lack of multifinality in decision-making, and inefficient action use. We also evaluate two classic reinforcement learning algorithms: Ape-X DQN and PPO. By offering a lightweight and multimodal design, TowerMind complements the existing RTS game-based environment landscape and introduces a new benchmark for the AI agent field. The source code is publicly available on GitHub(https://github.com/tb6147877/TowerMind).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.