2602.13214v1 Jan 22, 2026 cs.AI

BotzoneBench: 등급 기반 인공지능 벤치마크를 활용한 확장 가능한 LLM 평가

BotzoneBench: Scalable LLM Evaluation via Graded AI Anchors

Lingfeng Li
Lingfeng Li
Citations: 3
h-index: 1
Yunlong Lu
Yunlong Lu
Citations: 51
h-index: 4
Yongyi Wang
Yongyi Wang
Citations: 4
h-index: 1
Qirui Zheng
Qirui Zheng
Citations: 16
h-index: 2
Xionghui Yang
Xionghui Yang
Citations: 3
h-index: 1
Wenxin Li
Wenxin Li
Citations: 12
h-index: 1
Yuefei Zhang
Yuefei Zhang
Citations: 5
h-index: 1
Jing Yao
Jing Yao
Citations: 550
h-index: 11
Yixin Zhu
Yixin Zhu
Citations: 598
h-index: 13
Keyuan Cheng
Keyuan Cheng
Citations: 161
h-index: 8

대규모 언어 모델(LLM)은 점차 상호 작용 환경에 배포되고 있으며, 전략적 의사 결정을 요구하지만, 이러한 능력을 체계적으로 평가하는 것은 여전히 어려운 과제입니다. 기존의 LLM 벤치마크는 주로 개별적인 작업만을 통해 정적인 추론 능력을 평가하며, 동적인 전략적 능력을 제대로 반영하지 못합니다. 최근의 게임 기반 평가는 LLM 간의 토너먼트를 통해 상대적인 순위를 결정하지만, 이는 일시적인 모델 풀에 의존하며, 이차적인 계산 비용을 발생시키고, 장기적인 추적을 위한 안정적인 성능 기준점을 제공하지 못합니다. 핵심적인 과제는 LLM의 전략적 추론 능력을 일관되고 해석 가능한 기준으로 측정하는 확장 가능한 평가 프레임워크를 구축하는 것입니다. 본 연구에서는 LLM 평가를, 기술 수준이 조정된 게임 인공지능(AI)의 고정된 계층 구조에 연결함으로써, 선형 시간 내에 절대적인 기술 수준을 측정하고, 시간 경과에 따른 해석 가능성을 안정화할 수 있음을 보여줍니다. Botzone 플랫폼의 기존 경쟁 인프라를 기반으로 구축된 BotzoneBench는 결정론적 완전 정보 보드 게임부터 확률적 불완전 정보 카드 게임에 이르기까지 다양한 8가지 게임을 통해 LLM을 평가합니다. 5개의 주요 모델에서 177,047개의 상태-행동 쌍을 체계적으로 평가한 결과, 상당한 성능 차이가 나타나고, 뚜렷한 전략적 행동 패턴이 확인되었습니다. 최고 성능을 보이는 모델은 여러 분야에서 중간에서 높은 수준의 전문 게임 AI와 유사한 수준의 능력을 보여주었습니다. 이러한 고정된 평가 패러다임은 게임뿐만 아니라 명확하게 정의된 기술 계층 구조를 가진 모든 영역에 적용될 수 있으며, 상호 작용 AI의 능력을 평가하기 위한 확장 가능하고 재사용 가능한 프레임워크를 구축합니다.

Original Abstract

Large Language Models (LLMs) are increasingly deployed in interactive environments requiring strategic decision-making, yet systematic evaluation of these capabilities remains challenging. Existing benchmarks for LLMs primarily assess static reasoning through isolated tasks and fail to capture dynamic strategic abilities. Recent game-based evaluations employ LLM-vs-LLM tournaments that produce relative rankings dependent on transient model pools, incurring quadratic computational costs and lacking stable performance anchors for longitudinal tracking. The central challenge is establishing a scalable evaluation framework that measures LLM strategic reasoning against consistent, interpretable standards rather than volatile peer models. Here we show that anchoring LLM evaluation to fixed hierarchies of skill-calibrated game Artificial Intelligence (AI) enables linear-time absolute skill measurement with stable cross-temporal interpretability. Built on the Botzone platform's established competitive infrastructure, our BotzoneBench evaluates LLMs across eight diverse games spanning deterministic perfect-information board games to stochastic imperfect-information card games. Through systematic assessment of 177,047 state-action pairs from five flagship models, we reveal significant performance disparities and identify distinct strategic behaviors, with top-performing models achieving proficiency comparable to mid-to-high-tier specialized game AI in multiple domains. This anchored evaluation paradigm generalizes beyond games to any domain with well-defined skill hierarchies, establishing a scalable and reusable framework for assessing interactive AI capabilities.

1 Citations
0 Influential
6.5 Altmetric
33.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!