PokeGym: 시각 정보를 기반으로 하는 장기적인 평가 벤치마크 - 컴퓨터 비전-언어 모델을 위한
PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models
컴퓨터 비전-언어 모델(VLM)은 정적인 시각적 이해 측면에서 놀라운 발전을 이루었지만, 복잡한 3차원 환경에서 실제 적용은 여전히 제한적입니다. 기존 벤치마크는 다음과 같은 네 가지 주요 결점을 가지고 있습니다: (1) 수동적인 인지 작업은 상호작용적인 동적인 측면을 간과합니다; (2) 단순화된 2차원 환경은 깊이 인지 능력을 평가하는 데 부족합니다; (3) 모델에게 유리한 정보 누출은 진정한 시각 처리 과정을 우회합니다; (4) 인간 평가 방식은 비용이 매우 높고 확장성이 떨어집니다. 우리는 시각 정보를 기반으로 하는 장기적인 평가 벤치마크인 PokeGym을 제안합니다. PokeGym은 시각적으로 복잡한 3차원 오픈 월드 롤플레잉 게임인 Pokemon Legends: Z-A 내에 구현되었습니다. PokeGym은 엄격한 코드 수준의 격리를 통해, 에이전트가 원시 RGB 데이터만 사용하여 작동하도록 하며, 독립적인 평가기가 메모리 스캔을 통해 성공 여부를 검증하여 순수한 시각 기반 의사 결정을 보장하고 자동화된 확장 가능한 평가를 가능하게 합니다. 이 벤치마크는 탐색, 상호 작용 및 혼합 시나리오를 포함하는 30개의 작업(30-220 단계)으로 구성되어 있으며, 시각적 연결, 의미적 추론 및 자율 탐색 능력을 체계적으로 분석하기 위해 세 가지 수준의 지침(시각 안내, 단계별 안내, 목표 중심)을 제공합니다. 우리의 평가는 현재 VLM의 주요 한계를 보여줍니다. 즉, 고급 계획보다는 물리적인 교착 상태 복구가 주요 병목 현상이며, 교착 상태는 작업 성공률과 강한 부정적인 상관 관계를 보입니다. 또한, 우리는 메타인지적 차이를 발견했습니다. 성능이 낮은 모델은 주로 '인지하지 못하는 교착 상태'(함정에 빠진 것을 인식하지 못함)를 겪는 반면, 성능이 높은 모델은 '인지하는 교착 상태'(함정에 빠졌다는 것을 인지하지만 복구하지 못함)를 보이는 경향이 있습니다. 이러한 결과는 VLM 아키텍처에 명시적인 공간적 직관을 통합해야 할 필요성을 강조합니다. 코드와 벤치마크는 GitHub에서 제공될 예정입니다.
While Vision-Language Models (VLMs) have achieved remarkable progress in static visual understanding, their deployment in complex 3D embodied environments remains severely limited. Existing benchmarks suffer from four critical deficiencies: (1) passive perception tasks circumvent interactive dynamics; (2) simplified 2D environments fail to assess depth perception; (3) privileged state leakage bypasses genuine visual processing; and (4) human evaluation is prohibitively expensive and unscalable. We introduce PokeGym, a visually-driven long-horizon benchmark instantiated within Pokemon Legends: Z-A, a visually complex 3D open-world Role-Playing Game. PokeGym enforces strict code-level isolation: agents operate solely on raw RGB observations while an independent evaluator verifies success via memory scanning, ensuring pure vision-based decision-making and automated, scalable assessment. The benchmark comprises 30 tasks (30-220 steps) spanning navigation, interaction, and mixed scenarios, with three instruction granularities (Visual-Guided, Step-Guided, Goal-Only) to systematically deconstruct visual grounding, semantic reasoning, and autonomous exploration capabilities. Our evaluation reveals a key limitation of current VLMs: physical deadlock recovery, rather than high-level planning, constitutes the primary bottleneck, with deadlocks showing a strong negative correlation with task success. Furthermore, we uncover a metacognitive divergence: weaker models predominantly suffer from Unaware Deadlocks (oblivious to entrapment), whereas advanced models exhibit Aware Deadlocks (recognizing entrapment yet failing to recover). These findings highlight the need to integrate explicit spatial intuition into VLM architectures. The code and benchmark will be available on GitHub.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.