ClawGUI: GUI 에이전트 훈련, 평가 및 배포를 위한 통합 프레임워크
ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents
GUI 에이전트는 프로그래밍 API 대신 시각적 인터페이스를 통해 애플리케이션을 제어하며, 터치, 스와이프 및 키 입력을 통해 다양한 소프트웨어와 상호 작용하여 CLI 기반 에이전트가 처리할 수 없는 광범위한 애플리케이션을 지원합니다. 그러나 이 분야의 발전은 모델링 능력의 한계보다는 일관성 있는 풀스택 인프라의 부재로 인해 제한됩니다. 온라인 강화 학습은 환경 불안정 및 폐쇄형 파이프라인으로 인해 어려움을 겪고, 평가 프로토콜은 연구마다 일관되지 않으며, 훈련된 에이전트가 실제 장치에서 실제 사용자를 만나는 경우는 드뭅니다. 본 논문에서는 이러한 세 가지 문제를 해결하기 위한 오픈 소스 프레임워크인 extbf{ClawGUI}를 소개합니다. extbf{ClawGUI-RL}은 병렬 가상 환경과 실제 물리 장치를 모두 지원하는 최초의 오픈 소스 GUI 에이전트 강화 학습 인프라를 제공하며, GiGPO와 프로세스 보상 모델을 통합하여 세분화된 단계별 감독을 가능하게 합니다. extbf{ClawGUI-Eval}은 6개의 벤치마크와 11개 이상의 모델에 걸쳐 완전한 표준화된 평가 파이프라인을 적용하여 공식 기준에 대한 95.8%의 재현성을 달성합니다. extbf{ClawGUI-Agent}는 12개 이상의 채팅 플랫폼을 통해 훈련된 에이전트를 Android, HarmonyOS 및 iOS로 제공하며, 하이브리드 CLI-GUI 제어 및 지속적인 개인화된 메모리를 지원합니다. 이 파이프라인 내에서 엔드 투 엔드로 훈련된 extbf{ClawGUI-2B}는 MobileWorld GUI-Only에서 17.1%의 성공률을 달성하여 동일 규모의 MAI-UI-2B 기준 모델보다 6.0% 더 높은 성능을 보입니다.
GUI agents drive applications through their visual interfaces instead of programmatic APIs, interacting with arbitrary software via taps, swipes, and keystrokes, reaching a long tail of applications that CLI-based agents cannot. Yet progress in this area is bottlenecked less by modeling capacity than by the absence of a coherent full-stack infrastructure: online RL training suffers from environment instability and closed pipelines, evaluation protocols drift silently across works, and trained agents rarely reach real users on real devices. We present \textbf{ClawGUI}, an open-source framework addressing these three gaps within a single harness. \textbf{ClawGUI-RL} provides the first open-source GUI agent RL infrastructure with validated support for both parallel virtual environments and real physical devices, integrating GiGPO with a Process Reward Model for dense step-level supervision. \textbf{ClawGUI-Eval} enforces a fully standardized evaluation pipeline across 6 benchmarks and 11+ models, achieving 95.8\% reproduction against official baselines. \textbf{ClawGUI-Agent} brings trained agents to Android, HarmonyOS, and iOS through 12+ chat platforms with hybrid CLI-GUI control and persistent personalized memory. Trained end to end within this pipeline, \textbf{ClawGUI-2B} achieves 17.1\% Success Rate on MobileWorld GUI-Only, outperforming the same-scale MAI-UI-2B baseline by 6.0\%.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.