Terminal-Bench: 명령줄 인터페이스 환경에서 어려운, 실제적인 작업에 대한 에이전트 성능 평가
Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces
인공지능 에이전트는 곧 다양한 분야에서 가치 있고 복잡한 작업을 자율적으로 수행할 수 있을 것입니다. 현재의 벤치마크들은 실제 세계의 작업을 측정하지 못하거나, 최첨단 모델의 성능을 의미 있게 평가하기에 충분히 어렵지 않습니다. 이러한 문제를 해결하기 위해, 우리는 Terminal-Bench 2.0을 소개합니다. Terminal-Bench 2.0은 실제 워크플로우에서 영감을 받은 컴퓨터 터미널 환경에서 89개의 작업으로 구성된 엄선된 어려운 벤치마크입니다. 각 작업은 고유한 환경, 사람이 작성한 솔루션, 그리고 검증을 위한 종합적인 테스트를 포함합니다. 우리는 최첨단 모델과 에이전트가 이 벤치마크에서 65% 미만의 성능을 보임을 확인했으며, 모델 및 에이전트 개선을 위한 영역을 파악하기 위해 오류 분석을 수행했습니다. 데이터셋과 평가 도구를 https://www.tbench.ai/ 에서 공개하여 개발자와 연구자들이 향후 연구에 활용할 수 있도록 지원합니다.
AI agents may soon become capable of autonomously completing valuable, long-horizon tasks in diverse domains. Current benchmarks either do not measure real-world tasks, or are not sufficiently difficult to meaningfully measure frontier models. To this end, we present Terminal-Bench 2.0: a carefully curated hard benchmark composed of 89 tasks in computer terminal environments inspired by problems from real workflows. Each task features a unique environment, human-written solution, and comprehensive tests for verification. We show that frontier models and agents score less than 65\% on the benchmark and conduct an error analysis to identify areas for model and agent improvement. We publish the dataset and evaluation harness to assist developers and researchers in future work at https://www.tbench.ai/ .
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.