LiteGUI: 강화 학습을 이용한 경량 GUI 에이전트 구축
LiteGUI: Distilling Compact GUI Agents with Reinforcement Learning
효율적인 크로스 플랫폼 자동 상호 작용을 위해서는 경량화된 온디바이스 비전-언어 GUI 에이전트 개발이 필수적입니다. 그러나 현재 온디바이스 에이전트는 제한된 모델 용량으로 인해 성능 향상이 시급한 상황입니다. 소규모 모델에 대한 기존의 지도 미세 조정(SFT)은 종종 과적합, 재앙적 망각 및 정책의 경직성을 초래하여 이러한 문제들을 완전히 해결하지 못합니다. 본 연구에서는 이러한 문제점을 해결하기 위해 SFT를 사용하지 않는 새로운 학습 패러다임을 제안합니다. 먼저, Guided On-policy Distillation을 통해 일반화된 지식 증류를 GUI 에이전트 영역에 체계적으로 통합하는 방법을 제시합니다. 오라클 참조 경로와 동적 검색 메커니즘을 결합하여 환각 현상을 줄이고 다중 해법 GUI 작업에 내재된 인지적 불일치를 완화합니다. 이를 바탕으로, 우리는 매크로 수준의 하위 작업 계획과 마이크로 수준의 실행 매칭을 동시에 정렬하는 Multi-solution Dual-level GRPO 프레임워크를 추가로 도입하여, 장기적인 GUI 에이전트 시나리오에서의 탐색 능력을 향상시킵니다. 또한, 풍부한 다중 해법 어노테이션을 포함하는 GUI 작업 경로를 생성하는 자동화된 데이터 생성 파이프라인을 구축했습니다. 광범위한 실험 결과, 제안하는 방법은 경량 모델 중에서 최첨단 성능을 달성했으며, 모든 벤치마크에서 훨씬 더 큰 규모의 모델과 경쟁력 있는 성능을 보였습니다. 추가적인 분석을 통해 구조화된 온폴리시 증류와 다중 해법 기반의 이중 수준 탐색이 2B/3B 규모의 에이전트의 잠재력을 최대한 발휘하여 기존의 모방 학습의 성능 한계를 뛰어넘는다는 것을 확인했습니다.
Developing lightweight, on-device vision-language GUI agents is essential for efficient cross-platform automated interaction. However, current on-device agents are constrained by limited model capacity, and further performance improvements remain urgently needed. Traditional Supervised Fine-Tuning (SFT) for small-scale models often leads to overfitting, catastrophic forgetting and policy rigidity, and thus fails to fully address these challenges. In this work, we propose a novel SFT-free training paradigm that significantly enhances the performance of small-scale models. We first present the initial systematic integration of generalized knowledge distillation into the GUI agent domain via Guided On-policy Distillation. By incorporating oracle reference trajectories together with a dynamic retrieval mechanism, our method reduces hallucinations and mitigates the cognitive misalignment inherent in multi-solution GUI tasks. Building on this foundation, we further introduce a Multi-solution Dual-level GRPO framework that jointly aligns macro-level subtask planning with micro-level execution matching, thereby improving exploration in long-horizon GUI agent scenarios. In addition, we construct an automated data generation pipeline to synthesize GUI task trajectories with rich multi-solution annotations. Extensive experiments show that our method achieves state-of-the-art performance among lightweight models while remaining competitive with substantially larger-scale models across all benchmarks. Ablation studies further demonstrate that structured on-policy distillation and multi-solution dual-level exploration can fully unlock the capabilities of 2B/3B scale agents, surpassing the performance limits of conventional imitation learning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.