AgencyBench: 100만 토큰 규모의 실제 환경 문맥에서의 자율 에이전트 최전선 벤치마킹
AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts
대규모 언어 모델(LLM) 기반의 자율 에이전트는 경제적 생산에 실질적으로 기여할 수 있는 다면적인 능력을 보여줍니다. 그러나 기존 벤치마크들은 단일 에이전트 능력에만 집중되어 있어, 장기적인(long-horizon) 실제 시나리오를 포착하지 못하고 있습니다. 게다가 현실적인 작업을 위해 인간 참여형(human-in-the-loop) 피드백에 의존하는 것은 확장성 병목 현상을 초래하여, 자동화된 롤아웃 수집 및 평가를 저해합니다. 이러한 격차를 해소하기 위해, 우리는 일상적인 AI 사용 사례에서 파생된 포괄적인 벤치마크인 AgencyBench를 소개합니다. 이는 32개의 실제 시나리오에 걸쳐 6가지 핵심 에이전트 능력을 평가하며, 구체적인 질의, 결과물 및 채점 기준(rubric)을 포함한 138개의 작업으로 구성됩니다. 이러한 시나리오들을 해결하기 위해서는 평균 90회의 도구 호출, 100만 토큰, 그리고 수 시간의 실행 시간이 소요됩니다. 자동화된 평가를 가능하게 하기 위해, 우리는 반복적인 피드백을 제공하는 사용자 시뮬레이션 에이전트와 시각적 및 기능적 채점 기준 기반 평가를 수행하는 도커(Docker) 샌드박스를 사용합니다. 실험 결과, 비공개(closed-source) 모델이 오픈 소스 모델보다 훨씬 뛰어난 성능을 보였습니다(48.4% 대 32.1%). 추가 분석을 통해 모델 간 자원 효율성, 피드백 기반 자가 수정, 특정 도구 사용 선호도에서 상당한 격차가 있음이 밝혀졌습니다. 마지막으로 우리는 에이전트 스캐폴드(scaffold)의 영향을 조사하였으며, 독점 모델들은 자체 생태계(예: Claude-Agent-SDK를 통한 Claude-4.5-Opus) 내에서 우수한 성능을 보여주는 반면, 오픈 소스 모델들은 특정 실행 프레임워크에 대한 최적화 가능성을 시사하며 뚜렷한 성능 최고점을 보였습니다. AgencyBench는 모델 아키텍처와 에이전트 프레임워크의 공동 최적화 필요성을 강조하며, 차세대 에이전트를 위한 중요한 테스트베드 역할을 합니다. 우리는 이 연구가 자율 에이전트의 미래 방향을 조명한다고 믿으며, 전체 벤치마크와 평가 툴킷을 https://github.com/GAIR-NLP/AgencyBench 에 공개합니다.
Large Language Models (LLMs) based autonomous agents demonstrate multifaceted capabilities to contribute substantially to economic production. However, existing benchmarks remain focused on single agentic capability, failing to capture long-horizon real-world scenarios. Moreover, the reliance on human-in-the-loop feedback for realistic tasks creates a scalability bottleneck, hindering automated rollout collection and evaluation. To bridge this gap, we introduce AgencyBench, a comprehensive benchmark derived from daily AI usage, evaluating 6 core agentic capabilities across 32 real-world scenarios, comprising 138 tasks with specific queries, deliverables, and rubrics. These scenarios require an average of 90 tool calls, 1 million tokens, and hours of execution time to resolve. To enable automated evaluation, we employ a user simulation agent to provide iterative feedback, and a Docker sandbox to conduct visual and functional rubric-based assessment. Experiments reveal that closed-source models significantly outperform open-source models (48.4% vs 32.1%). Further analysis reveals significant disparities across models in resource efficiency, feedback-driven self-correction, and specific tool-use preferences. Finally, we investigate the impact of agentic scaffolds, observing that proprietary models demonstrate superior performance within their native ecosystems (e.g., Claude-4.5-Opus via Claude-Agent-SDK), while open-source models exhibit distinct performance peaks, suggesting potential optimization for specific execution frameworks. AgencyBench serves as a critical testbed for next-generation agents, highlighting the necessity of co-optimizing model architecture with agentic frameworks. We believe this work sheds light on the future direction of autonomous agents, and we release the full benchmark and evaluation toolkit at https://github.com/GAIR-NLP/AgencyBench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.