LLM은 전문 포커 플레이어와 얼마나 격차가 있는가? 에이전트 도구 활용을 통한 게임 이론적 추론의 재조명
How Far Are LLMs from Professional Poker Players? Revisiting Game-Theoretic Reasoning with Agentic Tool Use
대규모 언어 모델(LLM)이 고위험(high-stakes) 영역에 점점 더 많이 적용됨에 따라, 불확실성 상황에서의 전략적 추론 능력은 매우 중요해지고 있다. 포커는 강력한 액션뿐만 아니라 원칙에 입각한 게임 이론적 추론을 요구하므로 엄격한 테스트베드가 된다. 본 논문에서는 다양한 실제 포커 과제에서 LLM에 대한 체계적인 연구를 수행하여 게임 플레이 결과와 추론 과정을 모두 평가한다. 분석 결과, LLM은 기존 알고리즘과의 경쟁에서 실패하는 것으로 나타났으며, 휴리스틱에 대한 의존, 사실 관계 오해, 그리고 행동과 추론이 일치하지 않는 '인식과 행동의 괴리(knowing-doing gap)'라는 세 가지 반복적인 결함이 확인되었다. 행동 복제와 단계별 강화 학습을 통한 초기 시도는 추론 스타일을 개선했으나, 정확한 게임 이론적 플레이에는 여전히 불충분했다. 이러한 한계를 극복하기 위해 우리는 GTO(Game Theory Optimal)에 부합하는 액션을 도출하는 외부 솔버와 정밀한 전문가 스타일의 설명을 결합한 도구 통합 추론 프레임워크인 ToolPoker를 제안한다. 실험 결과, ToolPoker는 최첨단(SOTA) 게임 플레이 성능을 달성하는 동시에 게임 이론적 원칙을 긴밀히 반영하는 추론 과정을 생성함을 입증했다.
As Large Language Models (LLMs) are increasingly applied in high-stakes domains, their ability to reason strategically under uncertainty becomes critical. Poker provides a rigorous testbed, requiring not only strong actions but also principled, game-theoretic reasoning. In this paper, we conduct a systematic study of LLMs in multiple realistic poker tasks, evaluating both gameplay outcomes and reasoning traces. Our analysis reveals LLMs fail to compete against traditional algorithms and identifies three recurring flaws: reliance on heuristics, factual misunderstandings, and a "knowing-doing" gap where actions diverge from reasoning. An initial attempt with behavior cloning and step-level reinforcement learning improves reasoning style but remains insufficient for accurate game-theoretic play. Motivated by these limitations, we propose ToolPoker, a tool-integrated reasoning framework that combines external solvers for GTO-consistent actions with more precise professional-style explanations. Experiments demonstrate that ToolPoker achieves state-of-the-art gameplay while producing reasoning traces that closely reflect game-theoretic principles.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.