EvoCUA: 확장 가능한 합성 경험 학습을 통한 컴퓨터 사용 에이전트 진화
EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience
네이티브 컴퓨터 사용 에이전트(CUA)의 개발은 멀티모달 AI의 중요한 도약을 의미합니다. 그러나 현재 그 잠재력은 정적 데이터 확장의 한계로 인해 정체되어 있습니다. 정적 데이터셋의 수동적 모방에 주로 의존하는 기존 패러다임은 장기적인(long-horizon) 컴퓨터 작업에 내재된 복잡한 인과 역학을 포착하는 데 어려움을 겪습니다. 본 연구에서는 네이티브 컴퓨터 사용 에이전트 모델인 EvoCUA를 소개합니다. 정적 모방과 달리, EvoCUA는 데이터 생성과 정책 최적화를 자립적인 진화 주기로 통합합니다. 데이터 부족 문제를 완화하기 위해, 우리는 실행 가능한 검증기와 결합된 다양한 작업을 자율적으로 생성하는 검증 가능한 합성 엔진을 개발했습니다. 대규모 경험 습득을 가능하게 하기 위해, 수만 개의 비동기 샌드박스 롤아웃을 조정하는 확장 가능한 인프라를 설계했습니다. 이러한 방대한 궤적을 바탕으로, 이 경험을 효율적으로 내재화하기 위한 반복적 진화 학습 전략을 제안합니다. 이 메커니즘은 능력의 경계를 식별하여 정책 업데이트를 동적으로 조절합니다. 즉, 성공적인 루틴은 강화하고, 실패한 궤적은 오류 분석 및 자가 수정을 통해 풍부한 지도 신호로 변환합니다. OSWorld 벤치마크에 대한 실증적 평가 결과, EvoCUA는 56.7%의 성공률을 달성하여 새로운 오픈 소스 최고 성능(SOTA)을 기록했습니다. 특히 EvoCUA는 기존 최고의 오픈 소스 모델인 OpenCUA-72B(45.0%)를 크게 앞서며, UI-TARS-2(53.1%)와 같은 주요 비공개(closed-weights) 모델보다도 뛰어난 성능을 보입니다. 결정적으로, 우리의 결과는 이 접근 방식의 일반화 가능성을 강조합니다. 경험 학습이 주도하는 진화 패러다임은 다양한 규모의 파운데이션 모델 전반에 걸쳐 일관된 성능 향상을 가져오며, 네이티브 에이전트 기능을 발전시키기 위한 견고하고 확장 가능한 경로를 구축합니다.
The development of native computer-use agents (CUA) represents a significant leap in multimodal AI. However, their potential is currently bottlenecked by the constraints of static data scaling. Existing paradigms relying primarily on passive imitation of static datasets struggle to capture the intricate causal dynamics inherent in long-horizon computer tasks. In this work, we introduce EvoCUA, a native computer use agentic model. Unlike static imitation, EvoCUA integrates data generation and policy optimization into a self-sustaining evolutionary cycle. To mitigate data scarcity, we develop a verifiable synthesis engine that autonomously generates diverse tasks coupled with executable validators. To enable large-scale experience acquisition, we design a scalable infrastructure orchestrating tens of thousands of asynchronous sandbox rollouts. Building on these massive trajectories, we propose an iterative evolving learning strategy to efficiently internalize this experience. This mechanism dynamically regulates policy updates by identifying capability boundaries -- reinforcing successful routines while transforming failure trajectories into rich supervision through error analysis and self-correction. Empirical evaluations on the OSWorld benchmark demonstrate that EvoCUA achieves a success rate of 56.7%, establishing a new open-source state-of-the-art. Notably, EvoCUA significantly outperforms the previous best open-source model, OpenCUA-72B (45.0%), and surpasses leading closed-weights models such as UI-TARS-2 (53.1%). Crucially, our results underscore the generalizability of this approach: the evolving paradigm driven by learning from experience yields consistent performance gains across foundation models of varying scales, establishing a robust and scalable path for advancing native agent capabilities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.