Workspace-Bench 1.0: 대규모 파일 의존성을 갖는 작업 공간 내 작업에서 AI 에이전트 성능 평가
Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies
작업 공간 학습은 AI 에이전트가 작업자의 작업 공간 내 다양한 파일 간의 명시적 및 암시적 의존성을 식별하고, 추론하며, 활용하고, 업데이트하여 일상적인 작업과 고급 작업 모두를 효과적으로 수행하도록 하는 것을 의미합니다. 중요성이 강조되었음에도 불구하고, 기존의 관련 벤치마크는 대부분 사전에 지정되거나 합성된 파일만을 사용하여 평가하며, 제한적인 실제 의존성을 포함하고 있어 작업 공간 수준의 평가는 충분히 이루어지지 않고 있습니다. 이에, 본 연구에서는 대규모 파일 의존성을 포함하는 작업 공간 학습에 대한 AI 에이전트 성능을 평가하기 위한 벤치마크인 Workspace-Bench를 소개합니다. 저희는 5가지 작업자 프로필, 74가지 파일 유형, 20,476개의 파일(최대 20GB), 그리고 각 파일 의존성 그래프를 갖는 388개의 작업으로 구성된 현실적인 작업 공간을 구축했습니다. 이 벤치마크는 총 7,399개의 평가 항목을 통해 파일 간의 정보 검색, 문맥적 추론, 그리고 적응적 의사 결정을 요구합니다. 또한, 평가 비용을 약 70% 절감하면서 벤치마크의 분포를 유지하는 100개의 작업 세트인 Workspace-Bench-Lite를 제공합니다. 저희는 4가지 인기 있는 에이전트 프레임워크와 7가지 기초 모델을 평가했습니다. 실험 결과, 현재의 에이전트는 여전히 신뢰할 수 있는 작업 공간 학습 능력이 부족하며, 최고 성능을 보이는 에이전트의 정확도는 68.7%로, 인간의 성능인 80.7%에 훨씬 못 미칩니다. 또한, 에이전트 전체의 평균 성능은 47.4%에 불과합니다.
Workspace learning requires AI agents to identify, reason over, exploit, and update explicit and implicit dependencies among heterogeneous files in a worker's workspace, enabling them to complete both routine and advanced tasks effectively. Despite its importance, existing relevant benchmarks largely evaluate agents on pre-specified or synthesized files with limited real-world dependencies, leaving workspace-level evaluation underexplored. To this end, we introduce Workspace-Bench, a benchmark for evaluating AI agents on Workspace Learning invOlving Large-Scale File Dependencies. We construct realistic workspaces with 5 worker profiles, 74 file types, 20,476 files (up to 20GB) and curate 388 tasks, each with its own file dependency graph, evaluated across 7,399 total rubrics that require cross-file retrieval, contextual reasoning, and adaptive decision-making. We further provide Workspace-Bench-Lite, a 100-task subset that preserves the benchmark distribution while reducing evaluation costs by about 70%. We evaluate 4 popular agent harnesses and 7 foundation models. Experimental results show that current agents remain far from reliable workspace learning, where the best reaches only 68.7%, substantially below the human result of 80.7%, and the average performance across agents is only 47.4%.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.