2604.11201v1 Apr 13, 2026 cs.CL

CocoaBench: 실제 환경에서의 통합 디지털 에이전트 평가

CocoaBench: Evaluating Unified Digital Agents in the Wild

Julian McAuley
Julian McAuley
Citations: 26
h-index: 2
Eric P. Xing
Eric P. Xing
Citations: 340
h-index: 7
Yu Wang
Yu Wang
Citations: 217
h-index: 8
Lianhui Qin
Lianhui Qin
Citations: 38
h-index: 2
Zhen Han
Zhen Han
Citations: 6
h-index: 1
Zhiting Hu
Zhiting Hu
Citations: 26
h-index: 3
Yijiang Li
Yijiang Li
Citations: 95
h-index: 6
Hexi Jin
Hexi Jin
Citations: 18
h-index: 2
Zheng Liu
Zheng Liu
Citations: 95
h-index: 4
Zilong Wang
Zilong Wang
Citations: 120
h-index: 6
Feng Yao
Feng Yao
Citations: 70
h-index: 4
Ziqiao Ma
Ziqiao Ma
Citations: 4
h-index: 1
Kun Zhou
Kun Zhou
Citations: 4
h-index: 1
CocoaBench Team Shibo Hao
CocoaBench Team Shibo Hao
Citations: 0
h-index: 0
Zhining Zhang
Zhining Zhang
Citations: 43
h-index: 2
Yuheng Zha
Yuheng Zha
Citations: 503
h-index: 6
Jixuan Chen
Jixuan Chen
Citations: 951
h-index: 7
Haoxiang Zhang
Haoxiang Zhang
Citations: 27
h-index: 3
Licheng Liu
Licheng Liu
Citations: 177
h-index: 2
Zhifei Li
Zhifei Li
Citations: 8
h-index: 1
Pracha Promthaw
Pracha Promthaw
Citations: 4
h-index: 1
Tommaso Cerruti
Tommaso Cerruti
Citations: 0
h-index: 0
Jingbo Shang
Jingbo Shang
Citations: 131
h-index: 4
R. Srivastava
R. Srivastava
Citations: 12,590
h-index: 16
Junli Wang
Junli Wang
Citations: 401
h-index: 5
Z. Liang
Z. Liang
Citations: 27
h-index: 1
Tianyang Liu
Tianyang Liu
Citations: 42
h-index: 2
Qiyue Gao
Qiyue Gao
Citations: 286
h-index: 6
Zhoujun Cheng
Zhoujun Cheng
Citations: 808
h-index: 5
Bo Zheng
Bo Zheng
Citations: 4
h-index: 1
Xiaohan Fu
Xiaohan Fu
Citations: 184
h-index: 8

최근 LLM 기반 에이전트는 소프트웨어 공학, 심층 연구, GUI 자동화 및 다양한 분야에서 뛰어난 성능을 보이며, 새로운 에이전트 프레임워크 및 모델들은 이러한 기능을 통합 시스템으로 통합하고 있습니다. 그러나 대부분의 평가는 여전히 이러한 기능들을 개별적으로 테스트하기 때문에, 에이전트가 다양한 기능을 결합해야 하는 다양한 활용 사례에 대한 평가가 부족합니다. 본 논문에서는 인간이 설계한, 장기적인 목표를 가진 시각, 검색, 코딩 기능을 유연하게 결합해야 하는 작업을 기반으로 하는 통합 디지털 에이전트 벤치마크인 CocoaBench를 소개합니다. 작업은 지침과 최종 결과에 대한 자동 평가 함수로만 정의되어, 다양한 에이전트 인프라에 대한 신뢰성 있고 확장 가능한 평가를 가능하게 합니다. 또한, 모델 아키텍처 간의 체계적인 비교를 위한 가벼운 공유 프레임워크인 CocoaAgent를 제시합니다. 실험 결과, 현재 에이전트는 CocoaBench에서 여전히 신뢰성이 떨어지는 것으로 나타났으며, 가장 높은 성공률을 기록한 시스템도 45.1%에 불과했습니다. 분석 결과, 추론 및 계획, 도구 사용 및 실행, 시각적 정보 이해 능력 개선을 위한 상당한 여지가 있음을 확인했습니다.

Original Abstract

LLM agents now perform strongly in software engineering, deep research, GUI automation, and various other applications, while recent agent scaffolds and models are increasingly integrating these capabilities into unified systems. Yet, most evaluations still test these capabilities in isolation, which leaves a gap for more diverse use cases that require agents to combine different capabilities. We introduce CocoaBench, a benchmark for unified digital agents built from human-designed, long-horizon tasks that require flexible composition of vision, search, and coding. Tasks are specified only by an instruction and an automatic evaluation function over the final output, enabling reliable and scalable evaluation across diverse agent infrastructures. We also present CocoaAgent, a lightweight shared scaffold for controlled comparison across model backbones. Experiments show that current agents remain far from reliable on CocoaBench, with the best evaluated system achieving only 45.1% success rate. Our analysis further points to substantial room for improvement in reasoning and planning, tool use and execution, and visual grounding.

0 Citations
0 Influential
8 Altmetric
40.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!