Mobile-Agent-v3.5: 다양한 플랫폼을 지원하는 기본 GUI 에이전트
Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents
본 논문에서는 GUI-Owl-1.5, 최신 네이티브 GUI 에이전트 모델을 소개합니다. GUI-Owl-1.5는 다양한 크기(2B/4B/8B/32B/235B)의 instruct/thinking 변형을 특징으로 하며, 데스크톱, 모바일, 브라우저 등 다양한 플랫폼을 지원하여 클라우드-엣지 협업 및 실시간 상호 작용을 가능하게 합니다. GUI-Owl-1.5는 오픈 소스 모델에서 20개 이상의 GUI 벤치마크에서 최첨단 성능을 달성합니다. (1) GUI 자동화 작업에서 OSWorld에서 56.5, AndroidWorld에서 71.6, WebArena에서 48.4를 달성했습니다. (2) grounding 작업에서 ScreenSpotPro에서 80.3을 달성했습니다. (3) 도구 호출 작업에서 OSWorld-MCP에서 47.6, MobileWorld에서 46.8을 달성했습니다. (4) 기억 및 지식 작업에서 GUI-Knowledge Bench에서 75.5를 달성했습니다. GUI-Owl-1.5는 다음과 같은 주요 혁신을 포함합니다. (1) 하이브리드 데이터 플라이휠: UI 이해 및 경로 생성을 위한 데이터 파이프라인을 시뮬레이션 환경과 클라우드 기반 샌드박스 환경의 조합을 기반으로 구축하여 데이터 수집의 효율성과 품질을 향상시킵니다. (2) 에이전트 기능의 통합 향상: 모델의 추론 능력을 향상시키기 위해 통합된 사고 합성 파이프라인을 사용하며, 도구/MCP 사용, 기억 및 다중 에이전트 적응을 포함한 주요 에이전트 기능을 개선하는 데 중점을 둡니다. (3) 멀티 플랫폼 환경 RL 스케일링: 멀티 플랫폼 충돌 및 장기 작업의 낮은 학습 효율성 문제를 해결하기 위해 새로운 환경 RL 알고리즘인 MRPO를 제안합니다. GUI-Owl-1.5 모델은 오픈 소스로 제공되며, 온라인 클라우드 샌드박스 데모는 https://github.com/X-PLUG/MobileAgent에서 확인할 수 있습니다.
The paper introduces GUI-Owl-1.5, the latest native GUI agent model that features instruct/thinking variants in multiple sizes (2B/4B/8B/32B/235B) and supports a range of platforms (desktop, mobile, browser, and more) to enable cloud-edge collaboration and real-time interaction. GUI-Owl-1.5 achieves state-of-the-art results on more than 20+ GUI benchmarks on open-source models: (1) on GUI automation tasks, it obtains 56.5 on OSWorld, 71.6 on AndroidWorld, and 48.4 on WebArena; (2) on grounding tasks, it obtains 80.3 on ScreenSpotPro; (3) on tool-calling tasks, it obtains 47.6 on OSWorld-MCP, and 46.8 on MobileWorld; (4) on memory and knowledge tasks, it obtains 75.5 on GUI-Knowledge Bench. GUI-Owl-1.5 incorporates several key innovations: (1) Hybird Data Flywheel: we construct the data pipeline for UI understanding and trajectory generation based on a combination of simulated environments and cloud-based sandbox environments, in order to improve the efficiency and quality of data collection. (2) Unified Enhancement of Agent Capabilities: we use a unified thought-synthesis pipeline to enhance the model's reasoning capabilities, while placing particular emphasis on improving key agent abilities, including Tool/MCP use, memory and multi-agent adaptation; (3) Multi-platform Environment RL Scaling: We propose a new environment RL algorithm, MRPO, to address the challenges of multi-platform conflicts and the low training efficiency of long-horizon tasks. The GUI-Owl-1.5 models are open-sourced, and an online cloud-sandbox demo is available at https://github.com/X-PLUG/MobileAgent.
AI Analysis
Korean Summary
Key Innovations
- 하이브리드 데이터 플라이휠 (Hybrid Data Flywheel): 가상 시뮬레이션 환경과 클라우드 샌드박스 환경을 결합하여, 난이도 높은 애플리케이션 화면 등 고품질의 GUI 궤적(Trajectory) 및 그라운딩(Grounding) 데이터를 효율적이고 확장성 있게 수집 및 증강
- 에이전트 역량의 통합적 강화 (Unified Enhancement of Agent Capabilities): 행동 후의 화면 상태 전환을 예측하는 세계 모델링(World Modeling) 학습과 관찰, 반성, 기억 관리, 도구 호출 추론을 포함하는 통합된 사고 사슬(CoT) 합성 파이프라인을 구축하여 에이전트의 장기 계획 및 상황 유지 능력 향상
- 멀티 플랫폼 환경 RL 스케일링 알고리즘 (MRPO): 훈련 시 발생하는 기기 간(모바일, PC, 웹) 그라디언트 간섭을 줄이는 교차 최적화 기법, 동일한 결과로 수렴하는 롤아웃을 보정하는 온라인 롤아웃 버퍼, 그리고 훈련과 추론 환경 간의 토크나이저 불일치를 해결하는 토큰-ID 전송(Token-ID Transport) 기법 적용
Learning & Inference Impact
학습 측면에서는 시뮬레이터와 클라우드를 결합한 자동화 데이터 수집 파이프라인을 통해 사람이 직접 라벨링하는 비용을 대폭 절감했습니다. 특히 MRPO 강화학습 시 여러 기기의 데이터를 혼합할 때 발생하는 그라디언트 충돌(Tug-of-war) 문제를 기기별 교차 학습(Alternating multi-device optimization)으로 해결하여 학습의 안정성을 극대화했으며, 토큰-ID 전송 방식을 도입해 추론 결과물의 토큰화 차이로 인한 로그 확률(log-prob) 오류를 원천 차단했습니다. 추론 측면에서는 슬라이딩 윈도우 기반의 계층적 컨텍스트 압축(최근 기록은 원본 유지, 과거 기록은 텍스트 요약)을 적용해 긴 작업(Long-horizon) 수행 시 메모리 효율성과 연산 속도를 보장합니다. 또한, 소형 모델(2B/4B)은 엣지 디바이스에서 실시간으로 빠르게 추론하고, 대형 모델(32B/235B)은 복잡한 계획을 담당하는 분업 구조를 통해 실사용의 유연성을 높였습니다.
Technical Difficulty
Estimated implementation complexity based on methodology.