UI-Voyager: 실패 경험을 통한 자기 진화형 GUI 에이전트
UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience
다중 모드 대규모 언어 모델(MLLM)의 발전과 함께 자율적인 모바일 GUI 에이전트에 대한 관심이 높아지고 있습니다. 그러나 기존 방법은 여전히 긴 시간 범위의 GUI 작업에서 희소한 보상 하에 발생하는 실패 경로로부터의 비효율적인 학습과 모호한 보상 할당 문제를 안고 있습니다. 이에, 우리는 새로운 두 단계의 자기 진화형 모바일 GUI 에이전트인 UI-Voyager를 제안합니다. 첫 번째 단계에서는 완전 자율적인 루프에서 데이터와 모델의 지속적인 공동 진화를 가능하게 하는 Rejection Fine-Tuning(RFT)을 사용합니다. 두 번째 단계에서는 Group Relative Self-Distillation(GRSD)을 도입하여 그룹 롤아웃에서 중요한 분기 지점을 식별하고, 성공적인 경로로부터 밀집된 단계별 감독 신호를 구성하여 실패한 경로를 수정합니다. AndroidWorld에서의 광범위한 실험 결과, 4B 모델이 81.0%의 Pass@1 성공률을 달성하여 수많은 최신 모델보다 뛰어난 성능을 보이며, 인간 수준의 성능을 능가합니다. 추가 분석 및 사례 연구를 통해 GRSD의 효과를 더욱 입증했습니다. 본 방법은 값비싼 수동 데이터 어노테이션 없이 효율적이고 자기 진화적인 고성능 모바일 GUI 자동화를 가능하게 하는 중요한 발전입니다.
Autonomous mobile GUI agents have attracted increasing attention along with the advancement of Multimodal Large Language Models (MLLMs). However, existing methods still suffer from inefficient learning from failed trajectories and ambiguous credit assignment under sparse rewards for long-horizon GUI tasks. To that end, we propose UI-Voyager, a novel two-stage self-evolving mobile GUI agent. In the first stage, we employ Rejection Fine-Tuning (RFT), which enables the continuous co-evolution of data and models in a fully autonomous loop. The second stage introduces Group Relative Self-Distillation (GRSD), which identifies critical fork points in group rollouts and constructs dense step-level supervision from successful trajectories to correct failed ones. Extensive experiments on AndroidWorld show that our 4B model achieves an 81.0% Pass@1 success rate, outperforming numerous recent baselines and exceeding human-level performance. Ablation and case studies further verify the effectiveness of GRSD. Our method represents a significant leap toward efficient, self-evolving, and high-performance mobile GUI automation without expensive manual data annotation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.