UI-Venus-1.5 기술 보고서
UI-Venus-1.5 Technical Report
GUI 에이전트는 디지털 환경에서의 상호 작용 자동화를 위한 강력한 패러다임으로 부상했지만, 광범위한 일반성과 일관되게 뛰어난 성능을 동시에 달성하는 것은 여전히 어려운 과제입니다. 본 보고서에서는 실제 응용 분야에서 견고한 성능을 발휘하도록 설계된 통합형, 엔드-투-엔드 GUI 에이전트인 UI-Venus-1.5를 소개합니다. 제안된 모델 패밀리는 다양한 하위 응용 시나리오를 충족하기 위해 두 가지 밀집형 모델(2B 및 8B)과 하나의 Mixture-of-Experts 모델(30B-A3B)로 구성됩니다. UI-Venus-1.5는 이전 버전에 비해 세 가지 주요 기술적 개선 사항을 포함합니다. (1) 30개 이상의 데이터 세트를 활용하여 100억 개의 토큰으로 구성된 포괄적인 중간 학습 단계를 통해 기본적인 GUI 의미를 확립합니다. (2) 전체 경로 기반 온라인 강화 학습을 통해 학습 목표를 대규모 환경에서의 장기적인 동적 탐색과 일치시킵니다. (3) 모델 병합을 통해 도메인별 모델(객체 인식, 웹, 모바일)을 하나의 통합된 체크포인트로 합성하여 단일 통합 GUI 에이전트를 구축합니다. 광범위한 실험 결과, UI-Venus-1.5는 ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%), AndroidWorld (77.6%)와 같은 벤치마크에서 최첨단 성능을 달성하며, 기존의 강력한 기준 모델보다 훨씬 뛰어난 성능을 보였습니다. 또한, UI-Venus-1.5는 다양한 중국 모바일 앱에서 강력한 탐색 기능을 보여주며, 실제 시나리오에서 사용자 지침을 효과적으로 실행합니다. 코드: https://github.com/inclusionAI/UI-Venus; 모델: https://huggingface.co/collections/inclusionAI/ui-venus
GUI agents have emerged as a powerful paradigm for automating interactions in digital environments, yet achieving both broad generality and consistently strong task performance remains challenging. In this report, we present UI-Venus-1.5, a unified, end-to-end GUI Agent designed for robust real-world applications. The proposed model family comprises two dense variants (2B and 8B) and one mixture-of-experts variant (30B-A3B) to meet various downstream application scenarios. Compared to our previous version, UI-Venus-1.5 introduces three key technical advances: (1) a comprehensive Mid-Training stage leveraging 10 billion tokens across 30+ datasets to establish foundational GUI semantics; (2) Online Reinforcement Learning with full-trajectory rollouts, aligning training objectives with long-horizon, dynamic navigation in large-scale environments; and (3) a single unified GUI Agent constructed via Model Merging, which synthesizes domain-specific models (grounding, web, and mobile) into one cohesive checkpoint. Extensive evaluations demonstrate that UI-Venus-1.5 establishes new state-of-the-art performance on benchmarks such as ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%), and AndroidWorld (77.6%), significantly outperforming previous strong baselines. In addition, UI-Venus-1.5 demonstrates robust navigation capabilities across a variety of Chinese mobile apps, effectively executing user instructions in real-world scenarios. Code: https://github.com/inclusionAI/UI-Venus; Model: https://huggingface.co/collections/inclusionAI/ui-venus
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.