2603.09337v1 Mar 10, 2026 cs.CV

확장(Scaling)을 넘어: 제로섬 환경에서 LLM의 전략적 추론 및 신속한 의사 결정 능력 평가

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Yao Zhu
Yao Zhu
Citations: 26
h-index: 4
Xing Chen
Xing Chen
Citations: 185
h-index: 4
Yunjian Zhang
Yunjian Zhang
Citations: 10
h-index: 3
Yang Li
Yang Li
Citations: 13
h-index: 2
Yutao Liu
Yutao Liu
Citations: 0
h-index: 0
Gege Qi
Gege Qi
Citations: 0
h-index: 0
Yanxian Bi
Yanxian Bi
Citations: 42
h-index: 3
Zizhe Wang
Zizhe Wang
Citations: 17
h-index: 3

대규모 언어 모델(LLM)은 정적인 추론 벤치마크에서 뛰어난 성능을 보이지만, 적대적이고 시간 제약적인 환경에서 상호 작용하는 에이전트로서의 효과는 아직 제대로 이해되지 못하고 있습니다. 기존의 평가는 추론을 단일 능력으로 취급하는 경향이 있으며, 상대방을 고려한 의사 결정, 시간 제약 및 압박 속에서의 실행과 같은 과제를 간과합니다. 본 논문에서는 전략적 전술 에이전트 추론(STAR) 벤치마크를 소개합니다. 이는 다중 에이전트 평가 프레임워크로, 1대1의 제로섬 경쟁 상호 작용을 통해 LLM을 평가하며, 추론을 반복적이고 적응적인 의사 결정 과정으로 정의합니다. STAR는 턴 기반 및 실시간 설정을 모두 지원하여, 통제된 환경에서 장기적인 전략적 계획 수립과 빠른 전술 실행을 분석할 수 있습니다. STAR는 모듈식 아키텍처, 표준화된 API 및 완벽하게 구현된 실행 엔진을 기반으로 하여, 재현 가능한 평가와 유연한 작업 사용자 정의를 가능하게 합니다. 단순히 승패 여부를 넘어, 전략적 행동의 질, 실행 효율성 및 결과 안정성과 같은 측면을 평가하는 전략적 평가 도구를 도입했습니다. 광범위한 쌍대 평가 결과, 추론에 집중하는 모델이 턴 기반 환경에서 우위를 점하는 반면, 추론 지연으로 인해 실시간 시나리오에서는 더 빠른 방식으로 학습된 모델이 더 나은 성능을 보이는 것으로 나타났습니다. 이러한 결과는 상호 작용 환경에서의 전략적 지능이 추론의 깊이뿐만 아니라, 계획을 적시에 실행하는 능력에 달려 있다는 것을 보여주며, STAR는 경쟁적이고 역동적인 환경에서 이러한 균형을 연구하는 데 유용한 벤치마크입니다.

Original Abstract

Large Language Models (LLMs) have achieved strong performance on static reasoning benchmarks, yet their effectiveness as interactive agents operating in adversarial, time-sensitive environments remains poorly understood. Existing evaluations largely treat reasoning as a single-shot capability, overlooking the challenges of opponent-aware decision-making, temporal constraints, and execution under pressure. This paper introduces Strategic Tactical Agent Reasoning (STAR) Benchmark, a multi-agent evaluation framework that assesses LLMs through 1v1 zero-sum competitive interactions, framing reasoning as an iterative, adaptive decision-making process. STAR supports both turn-based and real-time settings, enabling controlled analysis of long-horizon strategic planning and fast-paced tactical execution within a unified environment. Built on a modular architecture with a standardized API and fully implemented execution engine, STAR facilitates reproducible evaluation and flexible task customization. To move beyond binary win-loss outcomes, we introduce a Strategic Evaluation Suite that assesses not only competitive success but also the quality of strategic behavior, such as execution efficiency and outcome stability. Extensive pairwise evaluations reveal a pronounced strategy-execution gap: while reasoning-intensive models dominate turn-based settings, their inference latency often leads to inferior performance in real-time scenarios, where faster instruction-tuned models prevail. These results show that strategic intelligence in interactive environments depends not only on reasoning depth, but also on the ability to translate plans into timely actions, positioning STAR as a principled benchmark for studying this trade-off in competitive, dynamic settings.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!