GUI-Libra: 액션 인지적 지도 학습과 부분적으로 검증 가능한 강화 학습을 활용한 GUI 에이전트의 추론 및 행동 능력 향상
GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL
오픈 소스 GUI 에이전트는 여전히 장기적인 탐색 작업에서 폐쇄 소스 시스템에 비해 성능이 낮은 실정입니다. 이러한 성능 격차는 고품질의 액션과 연계된 추론 데이터 부족과, GUI 에이전트의 고유한 어려움을 간과하는 일반적인 사후 학습 파이프라인의 직접적인 적용 때문입니다. 우리는 이러한 파이프라인에서 두 가지 근본적인 문제를 발견했습니다. (i) CoT 추론을 사용하는 표준 SFT는 종종 추론의 정확성을 저해하고, (ii) 단계별 RLVR과 같은 학습은 부분적인 검증 가능성 문제를 안고 있습니다. 여기서 여러 개의 올바른 행동이 존재하지만, 검증을 위해 단 하나의 시연된 행동만 사용되기 때문입니다. 이는 오프라인 단계별 지표가 온라인 작업 성공을 예측하는 데 취약하게 만듭니다. 본 연구에서는 이러한 문제점을 해결하기 위한 맞춤형 학습 방법을 GUI-Libra로 제시합니다. 첫째, 액션과 연계된 추론 데이터 부족 문제를 완화하기 위해 데이터 생성 및 필터링 파이프라인을 도입하고, 81,000개의 GUI 추론 데이터셋을 공개합니다. 둘째, 추론과 실제 행동의 연관성을 강화하기 위해, 추론 후 행동 방식과 직접적인 행동 방식의 데이터를 혼합하고, 토큰의 가중치를 조정하여 행동과 실제 연관성을 강조하는 액션 인지적 SFT를 제안합니다. 셋째, 부분적인 검증 가능성 하에서 강화 학습의 안정성을 확보하기 위해, RLVR에서 간과된 KL 정규화의 중요성을 강조하고, KL 신뢰 영역이 오프라인에서 온라인 성능 예측을 향상시키는 데 결정적임을 보여줍니다. 또한, 신뢰할 수 없는 부정적인 기울기를 줄이기 위해 성공 적응형 스케일링을 도입합니다. 다양한 웹 및 모바일 벤치마크에서 GUI-Libra는 단계별 정확도와 전체 작업 완료율을 꾸준히 향상시킵니다. 우리의 결과는 신중하게 설계된 사후 학습 및 데이터 큐레이션이 비용이 많이 드는 온라인 데이터 수집 없이도 훨씬 강력한 문제 해결 능력을 발휘할 수 있음을 시사합니다. 우리는 데이터 효율적인 사후 학습을 통해 추론 능력을 갖춘 GUI 에이전트에 대한 추가 연구를 촉진하기 위해 데이터셋, 코드 및 모델을 공개합니다.
Open-source native GUI agents still lag behind closed-source systems on long-horizon navigation tasks. This gap stems from two limitations: a shortage of high-quality, action-aligned reasoning data, and the direct adoption of generic post-training pipelines that overlook the unique challenges of GUI agents. We identify two fundamental issues in these pipelines: (i) standard SFT with CoT reasoning often hurts grounding, and (ii) step-wise RLVR-tyle training faces partial verifiability, where multiple actions can be correct but only a single demonstrated action is used for verification. This makes offline step-wise metrics weak predictors of online task success. In this work, we present GUI-Libra, a tailored training recipe that addresses these challenges. First, to mitigate the scarcity of action-aligned reasoning data, we introduce a data construction and filtering pipeline and release a curated 81K GUI reasoning dataset. Second, to reconcile reasoning with grounding, we propose action-aware SFT that mixes reasoning-then-action and direct-action data and reweights tokens to emphasize action and grounding. Third, to stabilize RL under partial verifiability, we identify the overlooked importance of KL regularization in RLVR and show that a KL trust region is critical for improving offline-to-online predictability; we further introduce success-adaptive scaling to downweight unreliable negative gradients. Across diverse web and mobile benchmarks, GUI-Libra consistently improves both step-wise accuracy and end-to-end task completion. Our results suggest that carefully designed post-training and data curation can unlock significantly stronger task-solving capabilities without costly online data collection. We release our dataset, code, and models to facilitate further research on data-efficient post-training for reasoning-capable GUI agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.