2605.07926v1 May 08, 2026 cs.AI

AgentEscapeBench: LLM 에이전트의 도구 기반 추론 능력 평가: 도메인 외부 환경에서의 성능 분석

AgentEscapeBench: Evaluating Out-of-Domain Tool-Grounded Reasoning in LLM Agents

Dongyu Ru
Dongyu Ru
Citations: 432
h-index: 12
Xiaohua Wang
Xiaohua Wang
Citations: 425
h-index: 9
Zhengkang Guo
Zhengkang Guo
Citations: 29
h-index: 4
Lin Qiu
Lin Qiu
Citations: 78
h-index: 7
Yiyang Li
Yiyang Li
Citations: 90
h-index: 5
Xiaoyu Li
Xiaoyu Li
Citations: 113
h-index: 6
Xuezhi Cao
Xuezhi Cao
Citations: 47
h-index: 3
Xunliang Cai
Xunliang Cai
Citations: 231
h-index: 8
Jingwen Xv
Jingwen Xv
Citations: 5
h-index: 1
Xiaoqing Zheng
Xiaoqing Zheng
Citations: 13
h-index: 1

LLM 기반 에이전트들이 외부 도구에 점점 더 의존하게 됨에 따라, 익숙한 작업 흐름 및 단기 상호 작용을 넘어, 도구를 활용한 추론 능력을 유지하는 것이 중요합니다. 본 논문에서는 AgentEscapeBench를 소개합니다. AgentEscapeBench는 에이전트가 명시적인 장거리 의존성 제약 조건 하에서 새로운 도구 사용 절차를 추론하고 실행하며 수정할 수 있는지 테스트하는, 탈출 게임 스타일의 벤치마크입니다. 각 작업은 도구 및 항목 간의 방향성 비순환 의존성 그래프를 정의하며, 에이전트는 실제 외부 함수를 호출하고, 점진적으로 드러나는 숨겨진 상태를 추적하고, 중간 결과를 전파하고, 결정적으로 검증 가능한 최종 답변을 제출해야 합니다. AgentEscapeBench는 5개의 난이도 단계에 걸쳐 270개의 인스턴스를 포함하며, 완전 자동화된 평가를 지원합니다. 16개의 LLM 에이전트와 인간 참가자를 대상으로 진행된 실험 결과, 의존성 깊이가 증가함에 따라 성능이 급격히 저하되는 것으로 나타났습니다. 인간의 성공률은 난이도 5에서 98.3%에서 난이도 25에서는 80.0%로 감소했으며, 최상의 모델의 성공률은 90.0%에서 60.0%로 감소했습니다. 경로 분석 결과, 모델 실패의 주요 원인은 장거리 상태 추적, 단서 준수 및 중간 결과 전파의 실패로 파악되었습니다. 이러한 결과는 현재 에이전트가 로컬 도구 사용에는 능숙하지만, 여전히 깊은 문맥적 의존성에 어려움을 겪고 있음을 시사합니다. AgentEscapeBench가 현재 에이전트의 능력을 측정하고, 보다 강력한 범용 추론, 행동 및 적응을 위한 향후 학습 노력을 안내하는 진단 테스트베드로 활용되기를 바랍니다.

Original Abstract

As LLM-based agents increasingly rely on external tools, it is important to evaluate their ability to sustain tool-grounded reasoning beyond familiar workflows and short-range interactions. We introduce AgentEscapeBench, an escape-room-style benchmark that tests whether agents can infer, execute, and revise novel tool-use procedures under explicit long-range dependency constraints. Each task defines a directed acyclic dependency graph over tools and items, requiring agents to invoke real external functions, track hidden state revealed incrementally, propagate intermediate results, and submit a deterministically verifiable final answer. AgentEscapeBench includes 270 instances across five difficulty tiers and supports fully automated evaluation. Experiments with sixteen LLM agents and human participants show that performance drops sharply as dependency depth increases: humans decline from 98.3% success at difficulty-5 to 80.0% at difficulty-25, while the best model drops from 90.0% to 60.0%. Trajectory analysis attributes model failures mainly to breakdowns in long-range state tracking, clue adherence, and intermediate-result propagation. These findings suggest that current agents can often handle local tool use but still struggle with deep contextual dependencies. We hope AgentEscapeBench can serve as a diagnostic testbed for measuring current agent capabilities and informing future training efforts toward more robust general-purpose reasoning, action, and adaptation.

0 Citations
0 Influential
6 Altmetric
30.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!