2604.15093v1 Apr 16, 2026 cs.AI

OpenMobile: 작업 및 경로 생성 기반의 오픈 소스 모바일 에이전트 구축

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

Qiushi Sun
Qiushi Sun
Citations: 81
h-index: 4
A. Luu
A. Luu
Citations: 5,603
h-index: 33
Nuo Chen
Nuo Chen
Citations: 513
h-index: 12
Hang Yan
Hang Yan
Citations: 54
h-index: 4
Fangzhi Xu
Fangzhi Xu
Citations: 581
h-index: 9
Zichen Ding
Zichen Ding
Citations: 1,414
h-index: 10
Kanzhi Cheng
Kanzhi Cheng
Nanjing University
Citations: 1,115
h-index: 11
Lewei Lu
Lewei Lu
Citations: 0
h-index: 0
Zheng Ma
Zheng Ma
Citations: 74
h-index: 4
Jialin Cao
Jialin Cao
Citations: 0
h-index: 0
Jiajun Chen
Jiajun Chen
Citations: 44
h-index: 3
Jian-Bing Zhang
Jian-Bing Zhang
Citations: 2
h-index: 1
Dahua Lin
Dahua Lin
Citations: 27
h-index: 3
Zehao Li
Zehao Li
Citations: 12
h-index: 2

컴퓨터 비전 및 자연어 처리 모델을 기반으로 하는 모바일 에이전트는 모바일 작업 자동화 분야에서 뛰어난 성능을 보여왔으며, 최근의 선도적인 모델들은 AndroidWorld에서 거의 70%의 성공률을 달성하는 등 괄목할 만한 성능 향상을 이루었습니다. 그러나 이러한 시스템들은 학습 데이터를 비공개로 유지하고 있으며, 작업 및 경로 생성 방법에 대한 정보도 투명하게 공개하지 않습니다. 본 논문에서는 고품질의 작업 지침과 에이전트 경로를 생성하는 오픈 소스 프레임워크인 OpenMobile을 제시합니다. OpenMobile은 다음과 같은 두 가지 핵심 구성 요소를 가지고 있습니다. (1) 탐색을 통해 글로벌 환경 메모리를 구축하고, 이를 활용하여 다양하고 실질적인 지침을 생성하는 확장 가능한 작업 생성 파이프라인입니다. (2) 경로 생성 시 학습 모델과 전문가 모델을 번갈아 사용하는 정책 전환 전략을 통해, 기존의 모방 학습에서 부족한 오류 복구 데이터를 효과적으로 학습합니다. OpenMobile 데이터로 학습된 에이전트는 세 가지 동적 모바일 에이전트 벤치마크에서 경쟁력 있는 결과를 보여주며, 특히 미세 조정된 Qwen2.5-VL과 Qwen3-VL 모델은 AndroidWorld에서 각각 51.7%와 64.7%의 성능을 달성하여 기존의 공개 데이터 기반 접근 방식을 능가합니다. 또한, 생성된 지침과 벤치마크 테스트 세트 간의 중복성을 분석하여 성능 향상이 벤치마크에 대한 과적합이 아닌, 광범위한 기능 커버리지에서 비롯된 것임을 확인했습니다. 데이터와 코드는 https://njucckevin.github.io/openmobile/ 에서 공개하여 데이터 격차를 해소하고 모바일 에이전트 연구를 더욱 발전시키고자 합니다.

Original Abstract

Mobile agents powered by vision-language models have demonstrated impressive capabilities in automating mobile tasks, with recent leading models achieving a marked performance leap, e.g., nearly 70% success on AndroidWorld. However, these systems keep their training data closed and remain opaque about their task and trajectory synthesis recipes. We present OpenMobile, an open-source framework that synthesizes high-quality task instructions and agent trajectories, with two key components: (1) The first is a scalable task synthesis pipeline that constructs a global environment memory from exploration, then leverages it to generate diverse and grounded instructions. and (2) a policy-switching strategy for trajectory rollout. By alternating between learner and expert models, it captures essential error-recovery data often missing in standard imitation learning. Agents trained on our data achieve competitive results across three dynamic mobile agent benchmarks: notably, our fine-tuned Qwen2.5-VL and Qwen3-VL reach 51.7% and 64.7% on AndroidWorld, far surpassing existing open-data approaches. Furthermore, we conduct transparent analyses on the overlap between our synthetic instructions and benchmark test sets, and verify that performance gains stem from broad functionality coverage rather than benchmark overfitting. We release data and code at https://njucckevin.github.io/openmobile/ to bridge the data gap and facilitate broader mobile agent research.

0 Citations
0 Influential
16.5 Altmetric
82.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!