EvoCUA: 확장 가능한 합성 경험을 통한 학습을 기반으로 컴퓨터 사용 에이전트 진화
EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience
네이티브 컴퓨터 사용 에이전트(CUA) 개발은 다중 모드 인공지능 분야에서 중요한 진전을 의미합니다. 그러나 현재 이러한 에이전트의 잠재력은 정적인 데이터 확장이라는 제약으로 인해 제한됩니다. 기존의 패시브한 모방 방식으로 정적인 데이터 세트를 활용하는 방식은 장기적인 컴퓨터 작업에 내재된 복잡한 인과 관계를 포착하는 데 어려움을 겪습니다. 본 연구에서는 EvoCUA라는 네이티브 컴퓨터 사용 에이전트 모델을 소개합니다. EvoCUA는 정적인 모방과 달리 데이터 생성과 정책 최적화를 통합하여 자체적으로 지속 가능한 진화적 사이클을 구축합니다. 데이터 부족 문제를 완화하기 위해, 우리는 다양한 작업을 자동으로 생성하고 실행 가능한 검증기를 결합하는 검증 가능한 합성 엔진을 개발했습니다. 대규모 경험 획득을 위해, 우리는 수만 개의 비동기 샌드박스 실행을 조정하는 확장 가능한 인프라를 설계했습니다. 이러한 방대한 데이터 기반으로, 우리는 이 경험을 효율적으로 내재화하기 위한 반복적인 진화적 학습 전략을 제안합니다. 이 메커니즘은 기능 경계를 식별하여 정책 업데이트를 동적으로 조정하며, 성공적인 루틴을 강화하고, 오류 분석 및 자체 수정 과정을 통해 실패 경로를 풍부한 지도 데이터로 변환합니다. OSWorld 벤치마크에 대한 실험적 평가 결과, EvoCUA는 56.7%의 성공률을 달성하여 새로운 오픈 소스 최고 성능을 기록했습니다. 특히, EvoCUA는 이전 최고 성능의 오픈 소스 모델인 OpenCUA-72B(45.0%)보다 훨씬 우수한 성능을 보였으며, UI-TARS-2(53.1%)와 같은 선도적인 비공개 모델보다도 뛰어납니다. 더욱 중요한 점은, 우리의 결과는 이러한 접근 방식의 일반성을 강조합니다. 경험을 통한 학습을 기반으로 하는 진화적 패러다임은 다양한 규모의 기초 모델에서 일관된 성능 향상을 가져오며, 네이티브 에이전트의 기능을 향상시키는 강력하고 확장 가능한 방법을 제시합니다.
The development of native computer-use agents (CUA) represents a significant leap in multimodal AI. However, their potential is currently bottlenecked by the constraints of static data scaling. Existing paradigms relying primarily on passive imitation of static datasets struggle to capture the intricate causal dynamics inherent in long-horizon computer tasks. In this work, we introduce EvoCUA, a native computer use agentic model. Unlike static imitation, EvoCUA integrates data generation and policy optimization into a self-sustaining evolutionary cycle. To mitigate data scarcity, we develop a verifiable synthesis engine that autonomously generates diverse tasks coupled with executable validators. To enable large-scale experience acquisition, we design a scalable infrastructure orchestrating tens of thousands of asynchronous sandbox rollouts. Building on these massive trajectories, we propose an iterative evolving learning strategy to efficiently internalize this experience. This mechanism dynamically regulates policy updates by identifying capability boundaries -- reinforcing successful routines while transforming failure trajectories into rich supervision through error analysis and self-correction. Empirical evaluations on the OSWorld benchmark demonstrate that EvoCUA achieves a success rate of 56.7%, establishing a new open-source state-of-the-art. Notably, EvoCUA significantly outperforms the previous best open-source model, OpenCUA-72B (45.0%), and surpasses leading closed-weights models such as UI-TARS-2 (53.1%). Crucially, our results underscore the generalizability of this approach: the evolving paradigm driven by learning from experience yields consistent performance gains across foundation models of varying scales, establishing a robust and scalable path for advancing native agent capabilities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.