2604.07277v1 Apr 08, 2026 cs.LG

Android Coach: 단일 상태 다중 행동 방식을 활용하여 온라인 에이전트 학습 효율성 향상

Android Coach: Improve Online Agentic Training Efficiency with Single State Multiple Actions

Guo Gan
Guo Gan
Citations: 5
h-index: 1
Cong Chen
Cong Chen
Citations: 23
h-index: 3
Yuwei Ren
Yuwei Ren
Citations: 28
h-index: 4
Yin-Feng Huang
Yin-Feng Huang
Citations: 5
h-index: 1
hongjun zhou
hongjun zhou
Citations: 14
h-index: 2
Yuxuan Ding
Yuxuan Ding
Citations: 67
h-index: 2

온라인 강화 학습(RL)은 Android 에이전트의 능력을 향상시키는 효과적인 방법입니다. 그러나 에뮬레이터의 높은 지연 시간과 기존 RL 알고리즘의 낮은 샘플 효율성으로 인해 온라인 상호 작용을 통해 에이전트를 학습시키는 것은 매우 비용이 많이 듭니다. 본 연구에서는 현재 접근 방식의 근본적인 한계점을 지적합니다. 바로 '단일 상태 단일 행동' 패러다임입니다. 이 패러다임은 온라인 일방향 탐색을 통해 얻은 단일의 상태-행동 쌍으로 정책을 업데이트하지만, 각 비용이 많이 드는 에뮬레이터 상태를 충분히 탐색하지 못합니다. 본 논문에서는 'Android Coach'라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 학습 패러다임을 '단일 상태 다중 행동'으로 전환하여 에이전트가 단일 온라인 상태에 대해 여러 개의 행동을 샘플링하고 활용할 수 있도록 합니다. 본 연구에서는 추가적인 에뮬레이터 오버헤드 없이, 행동 가치를 추정하는 비평기(critic)를 학습하여 이를 가능하게 합니다. 비평기가 신뢰할 수 있는 안내자 역할을 수행하도록, 과정 보상 모델을 통합하고, 평균된 비평기 출력값을 기반으로 그룹별 이점 추정기를 도입합니다. 광범위한 실험 결과는 Android Coach의 효과성과 효율성을 입증합니다. AndroidLab 및 AndroidWorld에서 UI-TARS-1.5-7B 모델보다 성공률이 각각 7.5% 및 8.3% 향상되었으며, 동일한 성공률에서 PPO 및 GRPO와 같은 단일 상태 단일 행동 방식보다 1.4배 더 높은 학습 효율성을 달성했습니다.

Original Abstract

Online reinforcement learning (RL) serves as an effective method for enhancing the capabilities of Android agents. However, guiding agents to learn through online interaction is prohibitively expensive due to the high latency of emulators and the sample inefficiency of existing RL algorithms. We identify a fundamental limitation in current approaches: the Single State Single Action paradigm, which updates the policy with one-to-one state-action pairs from online one-way rollouts without fully exploring each costly emulator state. In this paper, we propose Android Coach, a novel framework that shifts the training paradigm to Single State Multiple Actions, allowing the agent to sample and utilize multiple actions for a single online state. We enable this without additional emulator overhead by learning a critic that estimates action values. To ensure the critic serves as a reliable coach, we integrate a process reward model and introduce a group-wise advantage estimator based on the averaged critic outputs. Extensive experiments demonstrate the effectiveness and efficiency of Android Coach: it achieves 7.5% and 8.3% success rate improvements on AndroidLab and AndroidWorld over UI-TARS-1.5-7B, and attains 1.4x higher training efficiency than Single State Single Action methods PPO and GRPO at matched success rates.

5 Citations
0 Influential
2 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!