2604.11784v1 Apr 13, 2026 cs.LG

ClawGUI: GUI 에이전트 훈련, 평가 및 배포를 위한 통합 프레임워크

ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents

Yueting Zhuang
Yueting Zhuang
Citations: 462
h-index: 12
Yongliang Shen
Yongliang Shen
Citations: 265
h-index: 9
Jun Xiao
Jun Xiao
Citations: 179
h-index: 7
Weiming Lu
Weiming Lu
Citations: 106
h-index: 3
Fei Tang
Fei Tang
Citations: 140
h-index: 6
Zhiqiong Lu
Zhiqiong Lu
Citations: 0
h-index: 0
Boxuan Zhang
Boxuan Zhang
Citations: 2
h-index: 1

GUI 에이전트는 프로그래밍 API 대신 시각적 인터페이스를 통해 애플리케이션을 제어하며, 터치, 스와이프 및 키 입력을 통해 다양한 소프트웨어와 상호 작용하여 CLI 기반 에이전트가 처리할 수 없는 광범위한 애플리케이션을 지원합니다. 그러나 이 분야의 발전은 모델링 능력의 한계보다는 일관성 있는 풀스택 인프라의 부재로 인해 제한됩니다. 온라인 강화 학습은 환경 불안정 및 폐쇄형 파이프라인으로 인해 어려움을 겪고, 평가 프로토콜은 연구마다 일관되지 않으며, 훈련된 에이전트가 실제 장치에서 실제 사용자를 만나는 경우는 드뭅니다. 본 논문에서는 이러한 세 가지 문제를 해결하기 위한 오픈 소스 프레임워크인 extbf{ClawGUI}를 소개합니다. extbf{ClawGUI-RL}은 병렬 가상 환경과 실제 물리 장치를 모두 지원하는 최초의 오픈 소스 GUI 에이전트 강화 학습 인프라를 제공하며, GiGPO와 프로세스 보상 모델을 통합하여 세분화된 단계별 감독을 가능하게 합니다. extbf{ClawGUI-Eval}은 6개의 벤치마크와 11개 이상의 모델에 걸쳐 완전한 표준화된 평가 파이프라인을 적용하여 공식 기준에 대한 95.8%의 재현성을 달성합니다. extbf{ClawGUI-Agent}는 12개 이상의 채팅 플랫폼을 통해 훈련된 에이전트를 Android, HarmonyOS 및 iOS로 제공하며, 하이브리드 CLI-GUI 제어 및 지속적인 개인화된 메모리를 지원합니다. 이 파이프라인 내에서 엔드 투 엔드로 훈련된 extbf{ClawGUI-2B}는 MobileWorld GUI-Only에서 17.1%의 성공률을 달성하여 동일 규모의 MAI-UI-2B 기준 모델보다 6.0% 더 높은 성능을 보입니다.

Original Abstract

GUI agents drive applications through their visual interfaces instead of programmatic APIs, interacting with arbitrary software via taps, swipes, and keystrokes, reaching a long tail of applications that CLI-based agents cannot. Yet progress in this area is bottlenecked less by modeling capacity than by the absence of a coherent full-stack infrastructure: online RL training suffers from environment instability and closed pipelines, evaluation protocols drift silently across works, and trained agents rarely reach real users on real devices. We present \textbf{ClawGUI}, an open-source framework addressing these three gaps within a single harness. \textbf{ClawGUI-RL} provides the first open-source GUI agent RL infrastructure with validated support for both parallel virtual environments and real physical devices, integrating GiGPO with a Process Reward Model for dense step-level supervision. \textbf{ClawGUI-Eval} enforces a fully standardized evaluation pipeline across 6 benchmarks and 11+ models, achieving 95.8\% reproduction against official baselines. \textbf{ClawGUI-Agent} brings trained agents to Android, HarmonyOS, and iOS through 12+ chat platforms with hybrid CLI-GUI control and persistent personalized memory. Trained end to end within this pipeline, \textbf{ClawGUI-2B} achieves 17.1\% Success Rate on MobileWorld GUI-Only, outperforming the same-scale MAI-UI-2B baseline by 6.0\%.

2 Citations
0 Influential
6 Altmetric
32.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!