2602.11524v1 Feb 12, 2026 cs.LG

GUI 에이전트를 위한 적응형 마일스톤 보상

Adaptive Milestone Reward for GUI Agents

Weinan Zhang
Weinan Zhang
Citations: 1
h-index: 1
Weiwen Liu
Weiwen Liu
Citations: 33
h-index: 3
Congmin Zheng
Congmin Zheng
Citations: 40
h-index: 4
Xiaoyun Mo
Xiaoyun Mo
Citations: 81
h-index: 4
Xinbei Ma
Xinbei Ma
Citations: 734
h-index: 10
Qiqiang Lin
Qiqiang Lin
Citations: 83
h-index: 4
Yin Zhao
Yin Zhao
Citations: 65
h-index: 3
Jiachen Zhu
Jiachen Zhu
Citations: 174
h-index: 7
Xingyu Lou
Xingyu Lou
Citations: 133
h-index: 8
Jun Wang
Jun Wang
Citations: 26
h-index: 3
Zhaoxiang Wang
Zhaoxiang Wang
Citations: 15
h-index: 2
Zhuosheng Zhang
Zhuosheng Zhang
Citations: 7
h-index: 2
Yong Yu
Yong Yu
Citations: 8
h-index: 2

강화학습(RL)은 모바일 GUI 에이전트 훈련을 위한 주류 패러다임으로 부상했지만, 장기(long-horizon) 작업에 내재된 시간적 신용 할당 문제로 인해 어려움을 겪고 있다. 주요 과제는 보상의 충실도(fidelity)와 밀도(density) 간의 상충 관계에 있다. 결과 보상은 높은 충실도를 제공하지만 신호의 희소성 문제를 겪는 반면, 과정 보상은 밀도 높은 감독을 제공하지만 편향과 보상 해킹에 취약하다. 이러한 문제를 해결하기 위해, 본 논문에서는 적응형 마일스톤 보상(ADMIRE) 메커니즘을 제안한다. ADMIRE는 성공적인 탐색 과정에서 동적으로 추출된 마일스톤에 궤적(trajectory)을 고정하여, 검증 가능하고 적응적인 보상 시스템을 구축한다. 특히, ADMIRE는 성공한 궤적의 노이즈를 제거하고 실패한 궤적을 보완(scaffold)하는 비대칭적 신용 할당 전략을 통합한다. 광범위한 실험 결과, ADMIRE는 AndroidWorld의 다양한 기본 모델 전반에 걸쳐 일관되게 10% 이상의 절대적인 성공률 향상을 달성함을 입증했다. 또한, 이 방법은 웹 내비게이션 및 체화된 작업(embodied tasks)과 같은 이질적인 환경과 다양한 강화학습 알고리즘 전반에서 우수한 성능을 달성하며 강력한 일반화 성능을 보여준다.

Original Abstract

Reinforcement Learning (RL) has emerged as a mainstream paradigm for training Mobile GUI Agents, yet it struggles with the temporal credit assignment problem inherent in long-horizon tasks. A primary challenge lies in the trade-off between reward fidelity and density: outcome reward offers high fidelity but suffers from signal sparsity, while process reward provides dense supervision but remains prone to bias and reward hacking. To resolve this conflict, we propose the Adaptive Milestone Reward (ADMIRE) mechanism. ADMIRE constructs a verifiable, adaptive reward system by anchoring trajectory to milestones, which are dynamically distilled from successful explorations. Crucially, ADMIRE integrates an asymmetric credit assignment strategy that denoises successful trajectories and scaffolds failed trajectories. Extensive experiments demonstrate that ADMIRE consistently yields over 10% absolute improvement in success rate across different base models on AndroidWorld. Moreover, the method exhibits robust generalizability, achieving strong performance across diverse RL algorithms and heterogeneous environments such as web navigation and embodied tasks.

1 Citations
0 Influential
5 Altmetric
26.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!