MobileDreamer: GUI 에이전트를 위한 생성형 스케치 월드 모델
MobileDreamer: Generative Sketch World Model for GUI Agent
모바일 GUI 에이전트는 실제 자동화 및 실용적 응용 분야에서 강력한 잠재력을 보여주었습니다. 그러나 대부분의 기존 에이전트는 현재 화면만을 기반으로 의사결정을 내리는 반응형 방식에 머물러 있어, 장기적인(long-horizon) 작업에서의 성능이 제한적입니다. 반복적인 상호작용을 통해 월드 모델을 구축하면 행동 결과를 예측할 수 있게 되어 모바일 GUI 에이전트의 의사결정 능력을 향상시킬 수 있습니다. 하지만 모델이 실제 배포가 가능할 만큼 효율적이면서도 공간적 인식을 바탕으로 행동 후 상태를 예측해야 하기에 이는 도전적인 과제입니다. 본 논문에서는 월드 모델이 제공하는 미래 상상을 바탕으로 GUI 에이전트의 역량을 강화하는 효율적인 월드 모델 기반 룩어헤드 프레임워크인 MobileDreamer를 제안합니다. 이는 텍스트 스케치 월드 모델과 GUI 에이전트를 위한 롤아웃 상상(rollout imagination) 전략으로 구성됩니다. 텍스트 스케치 월드 모델은 디지털 이미지를 핵심 작업 관련 스케치로 변환하는 학습 과정을 통해 행동 후 상태를 예측하며, GUI 요소의 공간 정보를 보존하기 위해 새로운 순서 불변(order-invariant) 학습 전략을 설계했습니다. GUI 에이전트를 위한 롤아웃 상상 전략은 월드 모델의 예측 능력을 활용하여 행동 선택 과정을 최적화합니다. Android World에서의 실험 결과, MobileDreamer는 최신 최고 성능(SOTA)을 달성했으며 작업 성공률을 5.25% 향상시켰습니다. 또한 월드 모델 평가를 통해 제안하는 텍스트 스케치 모델링이 핵심 GUI 요소를 정확하게 예측함을 검증했습니다.
Mobile GUI agents have shown strong potential in real-world automation and practical applications. However, most existing agents remain reactive, making decisions mainly from current screen, which limits their performance on long-horizon tasks. Building a world model from repeated interactions enables forecasting action outcomes and supports better decision making for mobile GUI agents. This is challenging because the model must predict post-action states with spatial awareness while remaining efficient enough for practical deployment. In this paper, we propose MobileDreamer, an efficient world-model-based lookahead framework to equip the GUI agents based on the future imagination provided by the world model. It consists of textual sketch world model and rollout imagination for GUI agent. Textual sketch world model forecasts post-action states through a learning process to transform digital images into key task-related sketches, and designs a novel order-invariant learning strategy to preserve the spatial information of GUI elements. The rollout imagination strategy for GUI agent optimizes the action-selection process by leveraging the prediction capability of world model. Experiments on Android World show that MobileDreamer achieves state-of-the-art performance and improves task success by 5.25%. World model evaluations further verify that our textual sketch modeling accurately forecasts key GUI elements.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.