CocoaBench: 실제 환경에서의 통합 디지털 에이전트 평가
CocoaBench: Evaluating Unified Digital Agents in the Wild
최근 LLM 기반 에이전트는 소프트웨어 공학, 심층 연구, GUI 자동화 및 다양한 분야에서 뛰어난 성능을 보이며, 새로운 에이전트 프레임워크 및 모델들은 이러한 기능을 통합 시스템으로 통합하고 있습니다. 그러나 대부분의 평가는 여전히 이러한 기능들을 개별적으로 테스트하기 때문에, 에이전트가 다양한 기능을 결합해야 하는 다양한 활용 사례에 대한 평가가 부족합니다. 본 논문에서는 인간이 설계한, 장기적인 목표를 가진 시각, 검색, 코딩 기능을 유연하게 결합해야 하는 작업을 기반으로 하는 통합 디지털 에이전트 벤치마크인 CocoaBench를 소개합니다. 작업은 지침과 최종 결과에 대한 자동 평가 함수로만 정의되어, 다양한 에이전트 인프라에 대한 신뢰성 있고 확장 가능한 평가를 가능하게 합니다. 또한, 모델 아키텍처 간의 체계적인 비교를 위한 가벼운 공유 프레임워크인 CocoaAgent를 제시합니다. 실험 결과, 현재 에이전트는 CocoaBench에서 여전히 신뢰성이 떨어지는 것으로 나타났으며, 가장 높은 성공률을 기록한 시스템도 45.1%에 불과했습니다. 분석 결과, 추론 및 계획, 도구 사용 및 실행, 시각적 정보 이해 능력 개선을 위한 상당한 여지가 있음을 확인했습니다.
LLM agents now perform strongly in software engineering, deep research, GUI automation, and various other applications, while recent agent scaffolds and models are increasingly integrating these capabilities into unified systems. Yet, most evaluations still test these capabilities in isolation, which leaves a gap for more diverse use cases that require agents to combine different capabilities. We introduce CocoaBench, a benchmark for unified digital agents built from human-designed, long-horizon tasks that require flexible composition of vision, search, and coding. Tasks are specified only by an instruction and an automatic evaluation function over the final output, enabling reliable and scalable evaluation across diverse agent infrastructures. We also present CocoaAgent, a lightweight shared scaffold for controlled comparison across model backbones. Experiments show that current agents remain far from reliable on CocoaBench, with the best evaluated system achieving only 45.1% success rate. Our analysis further points to substantial room for improvement in reasoning and planning, tool use and execution, and visual grounding.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.