CUA-Suite: 컴퓨터 사용 에이전트를 위한 대규모 인간 주석 비디오 데모
CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents
컴퓨터 사용 에이전트(CUA)는 복잡한 데스크톱 워크플로우를 자동화하는 데 큰 잠재력을 가지고 있지만, 범용 에이전트 개발은 고품질의 연속적인 인간 데모 비디오 부족으로 인해 어려움을 겪고 있습니다. 최근 연구에서는 분산된 스크린샷이 아닌 연속적인 비디오가 이러한 에이전트의 확장에 필수적이라는 점을 강조합니다. 그러나 현재 가장 큰 공개 데이터셋인 ScaleCUA는 2백만 개의 스크린샷만을 포함하고 있어, 20시간 미만의 비디오에 해당합니다. 이러한 문제점을 해결하기 위해, 당사는 전문가의 비디오 데모와 전문적인 데스크톱 컴퓨터 사용 에이전트를 위한 풍부한 주석을 포함하는 대규모 데이터셋인 CUA-Suite를 소개합니다. CUA-Suite의 핵심은 VideoCUA로, 87개의 다양한 애플리케이션에서 약 1만 건의 인간이 직접 시연한 작업을 30fps의 연속적인 화면 녹화, 운동학적 커서 추적, 다층화된 추론 주석과 함께 제공하며, 총 약 55시간 분량의 전문가 비디오, 6백만 프레임을 포함합니다. 기존의 분산된 데이터셋이 최종 클릭 좌표만을 포함하는 것과는 달리, 이러한 연속적인 비디오 스트림은 인간의 상호 작용의 전체적인 시간적 역동성을 보존하며, 기존 에이전트 프레임워크에서 요구하는 형식으로 손실 없이 변환할 수 있는 정보를 제공합니다. CUA-Suite는 또한 UI-Vision, CUA의 접지 및 계획 능력을 평가하기 위한 엄격한 벤치마크, 그리고 56,000개의 주석이 달린 스크린샷과 360만 개 이상의 UI 요소 주석을 포함하는 대규모 접지 데이터셋인 GroundCUA와 같은 추가적인 리소스를 제공합니다. 초기 평가 결과, 현재의 기본적인 액션 모델은 전문적인 데스크톱 애플리케이션에서 상당한 어려움을 겪는 것으로 나타났습니다(약 60%의 작업 실패율). 평가 외에도, CUA-Suite의 풍부한 멀티모달 데이터는 일반적인 화면 파싱, 연속적인 공간 제어, 비디오 기반 보상 모델링, 시각적 월드 모델과 같은 새로운 연구 분야를 지원합니다. 모든 데이터와 모델은 공개적으로 제공됩니다.
Computer-use agents (CUAs) hold great promise for automating complex desktop workflows, yet progress toward general-purpose agents is bottlenecked by the scarcity of continuous, high-quality human demonstration videos. Recent work emphasizes that continuous video, not sparse screenshots, is the critical missing ingredient for scaling these agents. However, the largest existing open dataset, ScaleCUA, contains only 2 million screenshots, equating to less than 20 hours of video. To address this bottleneck, we introduce CUA-Suite, a large-scale ecosystem of expert video demonstrations and dense annotations for professional desktop computer-use agents. At its core is VideoCUA, which provides approximately 10,000 human-demonstrated tasks across 87 diverse applications with continuous 30 fps screen recordings, kinematic cursor traces, and multi-layerfed reasoning annotations, totaling approximately 55 hours and 6 million frames of expert video. Unlike sparse datasets that capture only final click coordinates, these continuous video streams preserve the full temporal dynamics of human interaction, forming a superset of information that can be losslessly transformed into the formats required by existing agent frameworks. CUA-Suite further provides two complementary resources: UI-Vision, a rigorous benchmark for evaluating grounding and planning capabilities in CUAs, and GroundCUA, a large-scale grounding dataset with 56K annotated screenshots and over 3.6 million UI element annotations. Preliminary evaluation reveals that current foundation action models struggle substantially with professional desktop applications (~60% task failure rate). Beyond evaluation, CUA-Suite's rich multimodal corpus supports emerging research directions including generalist screen parsing, continuous spatial control, video-based reward modeling, and visual world models. All data and models are publicly released.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.