ZEBRAARENA: 도구 활용 LLM의 추론-행동 연관성을 연구하기 위한 진단 시뮬레이션 환경
ZEBRAARENA: A Diagnostic Simulation Environment for Studying Reasoning-Action Coupling in Tool-Augmented LLMs
도구를 활용한 대규모 언어 모델(LLM)은 다단계 추론과 외부 행동을 긴밀하게 결합해야 하지만, 기존 벤치마크는 종종 복잡한 환경 동역학, 암기된 지식 또는 데이터셋 오염으로 인해 이러한 상호 작용을 방해합니다. 본 논문에서는 도구 활용 LLM의 추론-행동 연관성을 연구하기 위한 절차적으로 생성된 진단 환경인 ZebraArena를 소개합니다. ZebraArena는 제어 가능한 난이도를 가지며, 암기나 데이터셋 오염으로 인한 이점을 최소화하는 지식 기반 최소화 설계를 채택하고 있습니다. ZebraArena의 각 작업은 특정 도구를 사용해야만 얻을 수 있는 중요한 정보 세트를 요구하며, 이를 통해 외부 정보 획득과 연역적 추론 간의 해석 가능한 인터페이스를 제공합니다. 이러한 설계는 고유한 해결책을 통해 결정적인 평가를 가능하게 하며, 효율적인 도구 사용을 측정하기 위한 이론적으로 최적화된 쿼리 수를 제공합니다. 우리는 ZebraArena가 심층적인 추론과 정확한 외부 도구 호출을 모두 요구하며, GPT-5 및 Gemini 2.5 Pro와 같은 최첨단 추론 모델조차도 어려운 경우에 60%의 정확도에 그친다는 것을 보여줍니다. 또한, 이론적 최적성과 실제 도구 사용 간의 지속적인 격차가 존재한다는 것을 관찰했습니다. 예를 들어, GPT-5는 이론적 최적값보다 70~270% 더 많은 도구 호출을 수행합니다. 우리는 평가 결과를 통해 얻은 주요 내용을 강조하며, ZebraArena가 내부 추론과 외부 행동 간의 상호 작용에 대한 추가 연구를 촉진하기를 바랍니다.
Tool-augmented large language models (LLMs) must tightly couple multi-step reasoning with external actions, yet existing benchmarks often confound this interplay with complex environment dynamics, memorized knowledge or dataset contamination. In this paper, we introduce ZebraArena, a procedurally generated diagnostic environment for studying reasoning-action coupling in tool-augmented LLMs, with controllable difficulty and a knowledge-minimal design, which limits gains from memorization or dataset contamination. Each task in ZebraArena requires a set of critical information which is available only through targeted tool use, yielding an interpretable interface between external information acquisition and deductive reasoning. This design provides deterministic evaluation via unique solutions, and a theoretical optimal query count for measuring efficient tool use. We show that ZebraArena requires a combination of in-depth reasoning and accurate external tool calling, which remains a challenge as frontier reasoning models such as GPT-5 and Gemini 2.5 Pro only achieves 60% accuracy on the hard instances. We also observe a persistent gaps between theoretical optimality and practical tool usage. For example, GPT-5 uses 70-270% more tool calls than the theoretical optimum. We highlight the key findings in our evaluation, and hope ZebraArena stimulates further research on the interplay between internal reasoning and external action.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.