GUI 에이전트를 위한 적응형 마일스톤 보상
Adaptive Milestone Reward for GUI Agents
강화학습(RL)은 모바일 GUI 에이전트 훈련을 위한 주류 패러다임으로 부상했지만, 장기(long-horizon) 작업에 내재된 시간적 신용 할당 문제로 인해 어려움을 겪고 있다. 주요 과제는 보상의 충실도(fidelity)와 밀도(density) 간의 상충 관계에 있다. 결과 보상은 높은 충실도를 제공하지만 신호의 희소성 문제를 겪는 반면, 과정 보상은 밀도 높은 감독을 제공하지만 편향과 보상 해킹에 취약하다. 이러한 문제를 해결하기 위해, 본 논문에서는 적응형 마일스톤 보상(ADMIRE) 메커니즘을 제안한다. ADMIRE는 성공적인 탐색 과정에서 동적으로 추출된 마일스톤에 궤적(trajectory)을 고정하여, 검증 가능하고 적응적인 보상 시스템을 구축한다. 특히, ADMIRE는 성공한 궤적의 노이즈를 제거하고 실패한 궤적을 보완(scaffold)하는 비대칭적 신용 할당 전략을 통합한다. 광범위한 실험 결과, ADMIRE는 AndroidWorld의 다양한 기본 모델 전반에 걸쳐 일관되게 10% 이상의 절대적인 성공률 향상을 달성함을 입증했다. 또한, 이 방법은 웹 내비게이션 및 체화된 작업(embodied tasks)과 같은 이질적인 환경과 다양한 강화학습 알고리즘 전반에서 우수한 성능을 달성하며 강력한 일반화 성능을 보여준다.
Reinforcement Learning (RL) has emerged as a mainstream paradigm for training Mobile GUI Agents, yet it struggles with the temporal credit assignment problem inherent in long-horizon tasks. A primary challenge lies in the trade-off between reward fidelity and density: outcome reward offers high fidelity but suffers from signal sparsity, while process reward provides dense supervision but remains prone to bias and reward hacking. To resolve this conflict, we propose the Adaptive Milestone Reward (ADMIRE) mechanism. ADMIRE constructs a verifiable, adaptive reward system by anchoring trajectory to milestones, which are dynamically distilled from successful explorations. Crucially, ADMIRE integrates an asymmetric credit assignment strategy that denoises successful trajectories and scaffolds failed trajectories. Extensive experiments demonstrate that ADMIRE consistently yields over 10% absolute improvement in success rate across different base models on AndroidWorld. Moreover, the method exhibits robust generalizability, achieving strong performance across diverse RL algorithms and heterogeneous environments such as web navigation and embodied tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.