GUI-GENESIS: GUI 에이전트 사후 학습을 위한 검증 가능한 보상을 갖춘 효율적인 환경의 자동 합성
GUI-GENESIS: Automated Synthesis of Efficient Environments with Verifiable Rewards for GUI Agent Post-Training
상호작용 가능한 환경에서 GUI 에이전트를 사후 학습(post-training)시키는 것은 일반화 및 장기 계획 능력을 개발하는 데 매우 중요합니다. 그러나 실제 애플리케이션에서의 훈련은 높은 지연 시간, 낮은 재현성, 그리고 노이즈가 섞인 시각적 프록시에 의존하는 검증 불가능한 보상 문제로 인해 제약을 받습니다. 이러한 한계를 해결하기 위해, 우리는 검증 가능한 보상을 갖춘 효율적인 GUI 훈련 환경을 자동으로 합성하는 최초의 프레임워크인 GUI-GENESIS를 제안합니다. GUI-GENESIS는 멀티모달 코드 모델을 사용하여 실제 애플리케이션을 경량 웹 환경으로 재구성하고, 결정론적 보상 신호를 제공하며 시각적 추정 노이즈를 제거하는 실행 가능한 어설션(executable assertions)인 코드 네이티브 보상을 적용합니다. 광범위한 실험 결과, GUI-GENESIS는 실제 애플리케이션에서 훈련하는 것과 비교하여 환경 지연 시간을 10배 단축하고 에포크(epoch)당 28,000달러 이상의 비용을 절감하는 것으로 나타났습니다. 특히, GUI-GENESIS로 훈련된 에이전트는 보류된(held-out) 실제 작업에서 기본 모델보다 14.54%, 실제 환경 강화학습(RL) 베이스라인보다 3.27% 더 뛰어난 성능을 보였습니다. 마지막으로, 우리는 모델이 아직 스스로 해결할 수 없는 환경도 합성할 수 있음을 관찰했으며, 이는 자가 발전(self-improving) 에이전트를 위한 경로를 제시합니다.
Post-training GUI agents in interactive environments is critical for developing generalization and long-horizon planning capabilities. However, training on real-world applications is hindered by high latency, poor reproducibility, and unverifiable rewards relying on noisy visual proxies. To address the limitations, we present GUI-GENESIS, the first framework to automatically synthesize efficient GUI training environments with verifiable rewards. GUI-GENESIS reconstructs real-world applications into lightweight web environments using multimodal code models and equips them with code-native rewards, executable assertions that provide deterministic reward signals and eliminate visual estimation noise. Extensive experiments show that GUI-GENESIS reduces environment latency by 10 times and costs by over $28,000 per epoch compared to training on real applications. Notably, agents trained with GUI-GENESIS outperform the base model by 14.54% and even real-world RL baselines by 3.27% on held-out real-world tasks. Finally, we observe that models can synthesize environments they cannot yet solve, highlighting a pathway for self-improving agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.