OmegaUse: 자율 작업 수행을 위한 범용 GUI 에이전트 구축
OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution
그래픽 사용자 인터페이스(GUI) 에이전트는 파운데이션 모델이 실제 작업을 완료할 수 있게 하여 인간-컴퓨터 상호작용을 혁신하고 인간의 생산성을 향상시키는 데 큰 잠재력을 보여줍니다. 본 보고서에서는 모바일 및 데스크톱 플랫폼 모두에서 자율적인 작업 수행을 가능하게 하며, 컴퓨터 사용 및 스마트폰 사용 시나리오를 지원하는 범용 GUI 에이전트 모델인 OmegaUse를 소개합니다. 효과적인 GUI 에이전트 모델을 구축하는 것은 (1) 고품질 데이터와 (2) 효과적인 학습 방법이라는 두 가지 요소에 달려 있습니다. 이를 해결하기 위해 우리는 정교하게 설계된 데이터 구축 파이프라인과 분리된 학습 패러다임을 도입합니다. 데이터 구축을 위해 엄격하게 선별된 오픈 소스 데이터셋을 활용하고, 상향식 자율 탐색과 하향식 분류 체계 기반 생성을 통합하여 고충실도 합성 데이터를 생성하는 새로운 자동화된 합성 프레임워크를 도입합니다. 학습 측면에서는 이러한 데이터를 더 잘 활용하기 위해 2단계 전략을 채택합니다. 즉, 기본적인 상호작용 구문을 확립하기 위한 지도 미세 조정(SFT)과, 공간적 접지 및 순차적 계획 능력을 향상시키기 위한 그룹 상대 정책 최적화(GRPO)를 순차적으로 적용합니다. 연산 효율성과 에이전트의 추론 능력 간의 균형을 맞추기 위해, OmegaUse는 전문가 혼합(Mixture-of-Experts, MoE) 백본을 기반으로 구축되었습니다. 오프라인 환경에서 크로스 터미널 기능을 평가하기 위해 여러 운영 체제에 걸친 벤치마크 제품군인 OS-Nav를 소개합니다. 여기에는 중국어 안드로이드 모바일 환경을 대상으로 하는 ChiM-Nav와 우분투(Ubuntu)에서의 일상적인 데스크톱 상호작용에 초점을 맞춘 Ubu-Nav가 포함됩니다. 광범위한 실험 결과, OmegaUse는 기존 GUI 벤치마크 전반에 걸쳐 높은 경쟁력을 보여주었으며, ScreenSpot-V2에서 96.3%라는 최고 수준(SOTA)의 점수를, AndroidControl에서 79.1%의 선도적인 단계 성공률을 달성했습니다. 또한 OmegaUse는 OS-Nav에서도 강력한 성능을 보여주어, ChiM-Nav에서 74.24%의 단계 성공률을, Ubu-Nav에서 55.9%의 평균 성공률을 기록했습니다.
Graphical User Interface (GUI) agents show great potential for enabling foundation models to complete real-world tasks, revolutionizing human-computer interaction and improving human productivity. In this report, we present OmegaUse, a general-purpose GUI agent model for autonomous task execution on both mobile and desktop platforms, supporting computer-use and phone-use scenarios. Building an effective GUI agent model relies on two factors: (1) high-quality data and (2) effective training methods. To address these, we introduce a carefully engineered data-construction pipeline and a decoupled training paradigm. For data construction, we leverage rigorously curated open-source datasets and introduce a novel automated synthesis framework that integrates bottom-up autonomous exploration with top-down taxonomy-guided generation to create high-fidelity synthetic data. For training, to better leverage these data, we adopt a two-stage strategy: Supervised Fine-Tuning (SFT) to establish fundamental interaction syntax, followed by Group Relative Policy Optimization (GRPO) to improve spatial grounding and sequential planning. To balance computational efficiency with agentic reasoning capacity, OmegaUse is built on a Mixture-of-Experts (MoE) backbone. To evaluate cross-terminal capabilities in an offline setting, we introduce OS-Nav, a benchmark suite spanning multiple operating systems: ChiM-Nav, targeting Chinese Android mobile environments, and Ubu-Nav, focusing on routine desktop interactions on Ubuntu. Extensive experiments show that OmegaUse is highly competitive across established GUI benchmarks, achieving a state-of-the-art (SOTA) score of 96.3% on ScreenSpot-V2 and a leading 79.1% step success rate on AndroidControl. OmegaUse also performs strongly on OS-Nav, reaching 74.24% step success on ChiM-Nav and 55.9% average success on Ubu-Nav.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.