AgentEscapeBench: LLM 에이전트의 도구 기반 추론 능력 평가: 도메인 외부 환경에서의 성능 분석
AgentEscapeBench: Evaluating Out-of-Domain Tool-Grounded Reasoning in LLM Agents
LLM 기반 에이전트들이 외부 도구에 점점 더 의존하게 됨에 따라, 익숙한 작업 흐름 및 단기 상호 작용을 넘어, 도구를 활용한 추론 능력을 유지하는 것이 중요합니다. 본 논문에서는 AgentEscapeBench를 소개합니다. AgentEscapeBench는 에이전트가 명시적인 장거리 의존성 제약 조건 하에서 새로운 도구 사용 절차를 추론하고 실행하며 수정할 수 있는지 테스트하는, 탈출 게임 스타일의 벤치마크입니다. 각 작업은 도구 및 항목 간의 방향성 비순환 의존성 그래프를 정의하며, 에이전트는 실제 외부 함수를 호출하고, 점진적으로 드러나는 숨겨진 상태를 추적하고, 중간 결과를 전파하고, 결정적으로 검증 가능한 최종 답변을 제출해야 합니다. AgentEscapeBench는 5개의 난이도 단계에 걸쳐 270개의 인스턴스를 포함하며, 완전 자동화된 평가를 지원합니다. 16개의 LLM 에이전트와 인간 참가자를 대상으로 진행된 실험 결과, 의존성 깊이가 증가함에 따라 성능이 급격히 저하되는 것으로 나타났습니다. 인간의 성공률은 난이도 5에서 98.3%에서 난이도 25에서는 80.0%로 감소했으며, 최상의 모델의 성공률은 90.0%에서 60.0%로 감소했습니다. 경로 분석 결과, 모델 실패의 주요 원인은 장거리 상태 추적, 단서 준수 및 중간 결과 전파의 실패로 파악되었습니다. 이러한 결과는 현재 에이전트가 로컬 도구 사용에는 능숙하지만, 여전히 깊은 문맥적 의존성에 어려움을 겪고 있음을 시사합니다. AgentEscapeBench가 현재 에이전트의 능력을 측정하고, 보다 강력한 범용 추론, 행동 및 적응을 위한 향후 학습 노력을 안내하는 진단 테스트베드로 활용되기를 바랍니다.
As LLM-based agents increasingly rely on external tools, it is important to evaluate their ability to sustain tool-grounded reasoning beyond familiar workflows and short-range interactions. We introduce AgentEscapeBench, an escape-room-style benchmark that tests whether agents can infer, execute, and revise novel tool-use procedures under explicit long-range dependency constraints. Each task defines a directed acyclic dependency graph over tools and items, requiring agents to invoke real external functions, track hidden state revealed incrementally, propagate intermediate results, and submit a deterministically verifiable final answer. AgentEscapeBench includes 270 instances across five difficulty tiers and supports fully automated evaluation. Experiments with sixteen LLM agents and human participants show that performance drops sharply as dependency depth increases: humans decline from 98.3% success at difficulty-5 to 80.0% at difficulty-25, while the best model drops from 90.0% to 60.0%. Trajectory analysis attributes model failures mainly to breakdowns in long-range state tracking, clue adherence, and intermediate-result propagation. These findings suggest that current agents can often handle local tool use but still struggle with deep contextual dependencies. We hope AgentEscapeBench can serve as a diagnostic testbed for measuring current agent capabilities and informing future training efforts toward more robust general-purpose reasoning, action, and adaptation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.