대규모 언어 모델과 그래프 어텐션을 통합한 자원 제약형 아마존 체스 의사 결정 프레임워크
Resource-constrained Amazons chess decision framework integrating large language models and graph attention
인공지능은 지능형 게임 시스템 개발을 통해 의사 결정, 전략적 계획 및 적응적 학습을 위한 엄격한 테스트 환경을 제공하며 크게 발전했습니다. 그러나 자원 제약 환경은 중요한 과제를 제시합니다. 기존의 딥러닝 방법은 방대한 데이터 세트와 계산 자원에 크게 의존하기 때문입니다. 본 논문에서는 게임 오브 아마존(Game of the Amazons)을 위한 경량 하이브리드 프레임워크를 제안합니다. 이 프레임워크는 그래프 기반 학습의 구조적 추론과 대규모 언어 모델의 생성 능력을 통합하여 약한 모델에서 강한 모델로의 일반화 패러다임을 탐구합니다. 구체적으로, 그래프 어텐션 오토인코더를 사용하여 다단계 몬테카를로 트리 탐색에 필요한 정보를 제공하고, 확률적 그래프 유전 알고리즘을 사용하여 평가 신호를 최적화하며, GPT-4o-mini를 활용하여 합성 학습 데이터를 생성합니다. 기존 방식과는 달리, 전문가의 시연에 의존하지 않고, 우리의 프레임워크는 노이즈가 많고 불완전한 지도 학습을 통해 학습합니다. 10x10 아마존 보드에서 수행한 실험 결과, 우리의 하이브리드 접근 방식은 기존 방식에 비해 의사 결정 정확도가 15%에서 56% 향상될 뿐만 아니라, 튜터 모델(GPT-4o-mini)보다도 훨씬 뛰어난 성능을 보였습니다. N=30 노드에서 45.0%의 우승률을 기록했으며, N=50 노드에서는 66.5%의 결정적인 우승률을 달성했습니다. 이러한 결과는 엄격한 계산 제약 조건 하에서 일반적인 기초 모델에서 특수화된 고성능 게임 AI를 발전시키는 것이 가능하다는 것을 입증합니다.
Artificial intelligence has advanced significantly through the development of intelligent game-playing systems, providing rigorous testbeds for decision-making, strategic planning, and adaptive learning. However, resource-constrained environments pose critical challenges, as conventional deep learning methods heavily rely on extensive datasets and computational resources. In this paper, we propose a lightweight hybrid framework for the Game of the Amazons, which explores the paradigm of weak-to-strong generalization by integrating the structural reasoning of graph-based learning with the generative capabilities of large language models. Specifically, we leverage a Graph Attention Autoencoder to inform a multi-step Monte Carlo Tree Search, utilize a Stochastic Graph Genetic Algorithm to optimize evaluation signals, and harness GPT-4o-mini to generate synthetic training data. Unlike traditional approaches that rely on expert demonstrations, our framework learns from noisy and imperfect supervision. We demonstrate that the Graph Attention mechanism effectively functions as a structural filter, denoising the LLM's outputs. Experiments on a 10$\times$10 Amazons board show that our hybrid approach not only achieves a 15\%--56\% improvement in decision accuracy over baselines but also significantly outperforms its teacher model (GPT-4o-mini), achieving a competitive win rate of 45.0\% at N=30 nodes and a decisive 66.5\% at only N=50 nodes. These results verify the feasibility of evolving specialized, high-performance game AI from general-purpose foundation models under stringent computational constraints.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.