ClawBench: AI 에이전트가 일상적인 온라인 작업을 수행할 수 있을까?
ClawBench: Can AI Agents Complete Everyday Online Tasks?
AI 에이전트는 이메일 관리와 같은 작업을 자동화할 수 있지만, 다른 일상적인 측면까지 자동화할 수 있을까요? 일상적인 온라인 작업은 차세대 AI 에이전트를 평가하기 위한 현실적이고 아직 해결되지 않은 테스트 환경을 제공합니다. 이에 따라, 우리는 153개의 간단한 작업으로 구성된 평가 프레임워크인 ClawBench를 소개합니다. 이 작업들은 사람들이 일상생활과 업무에서 정기적으로 수행해야 하는 작업들로, 구매 완료 및 예약부터 채용 지원까지 15가지 범주에 걸쳐 144개의 실제 플랫폼에서 수행됩니다. 이러한 작업들은 기존 벤치마크를 넘어서는 어려운 능력을 요구합니다. 예를 들어, 사용자가 제공한 문서에서 관련 정보를 얻거나, 다양한 플랫폼에서 여러 단계로 이루어진 워크플로우를 탐색하고, 많은 세부 정보를 정확하게 기입하는 등의 작업이 필요합니다. ClawBench는 기존 벤치마크와 달리, 정적인 페이지를 가진 오프라인 환경이 아닌 실제 운영 웹사이트에서 작동하여, 실제 웹 상호작용의 복잡성, 역동성, 그리고 어려움을 그대로 반영합니다. 경량화된 인터셉션 레이어를 통해 최종 제출 요청만 차단하여, 실제 세계에 미치는 부작용 없이 안전하게 평가할 수 있습니다. 7개의 최첨단 모델에 대한 평가 결과, 독점 모델과 오픈 소스 모델 모두 이 작업의 일부분만을 완료할 수 있다는 것을 보여줍니다. 예를 들어, Claude Sonnet 4.6은 33.3%의 성공률을 기록했습니다. ClawBench를 통한 발전은 신뢰할 수 있는 범용 어시스턴트로서 기능할 수 있는 AI 에이전트에 더욱 가까워지는 단계입니다.
AI agents may be able to automate your inbox, but can they automate other routine aspects of your life? Everyday online tasks offer a realistic yet unsolved testbed for evaluating the next generation of AI agents. To this end, we introduce ClawBench, an evaluation framework of 153 simple tasks that people need to accomplish regularly in their lives and work, spanning 144 live platforms across 15 categories, from completing purchases and booking appointments to submitting job applications. These tasks require demanding capabilities beyond existing benchmarks, such as obtaining relevant information from user-provided documents, navigating multi-step workflows across diverse platforms, and write-heavy operations like filling in many detailed forms correctly. Unlike existing benchmarks that evaluate agents in offline sandboxes with static pages, ClawBench operates on production websites, preserving the full complexity, dynamic nature, and challenges of real-world web interaction. A lightweight interception layer captures and blocks only the final submission request, ensuring safe evaluation without real-world side effects. Our evaluations of 7 frontier models show that both proprietary and open-source models can complete only a small portion of these tasks. For example, Claude Sonnet 4.6 achieves only 33.3%. Progress on ClawBench brings us closer to AI agents that can function as reliable general-purpose assistants.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.