2605.14747v1 May 14, 2026 cs.CL

Video2GUI: 일반화된 GUI 에이전트 사전 훈련을 위한 대규모 상호 작용 경로 생성

Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

Bowen Ye
Bowen Ye
Citations: 321
h-index: 6
Hao Tian
Hao Tian
Citations: 228
h-index: 5
Shuhao Gu
Shuhao Gu
Citations: 303
h-index: 5
Zihao Yue
Zihao Yue
Citations: 167
h-index: 4
Weimin Xiong
Weimin Xiong
Citations: 453
h-index: 8
Lei Li
Lei Li
Citations: 316
h-index: 5
Feifan Song
Feifan Song
Citations: 15
h-index: 2
Sujian Li
Sujian Li
Citations: 828
h-index: 11

최근 다중 모드 대규모 언어 모델의 발전은 그래픽 사용자 인터페이스(GUI) 에이전트에 대한 관심 증가를 이끌었지만, 다양한 실제 응용 분야를 포괄하는 대규모 훈련 데이터의 부족으로 인해 일반화 능력은 여전히 제한적입니다. 기존 데이터 세트는 비용이 많이 드는 수동 주석에 크게 의존하며, 일반적으로 좁은 영역에 국한됩니다. 이러한 문제를 해결하기 위해, 우리는 비표시된 인터넷 비디오에서 직접 GUI 상호 작용 경로를 추출하는 완전 자동화 프레임워크인 Video2GUI를 제안합니다. Video2GUI는 조잡한 단계부터 세밀한 단계까지의 필터링 전략을 사용하여 고품질의 GUI 튜토리얼 비디오를 식별하고 이를 구조화된 에이전트 경로로 변환합니다. 이 파이프라인을 5억 개의 비디오 메타데이터 항목에 적용하여, 1,500개 이상의 애플리케이션 및 웹사이트에 걸쳐 1,200만 개의 상호 작용 경로를 포함하는 대규모 데이터 세트인 WildGUI를 구축했습니다. WildGUI를 사용하여 Qwen2.5-VL 및 Mimo-VL을 사전 훈련하면 다양한 GUI 기반 작업 및 액션 벤치마크에서 5~20%의 일관된 성능 향상을 얻을 수 있으며, 이는 최첨단 성능과 일치하거나 능가합니다. 우리는 향후 GUI 에이전트 연구를 지원하기 위해 WildGUI 데이터 세트와 Video2GUI 파이프라인을 공개할 것입니다.

Original Abstract

Recent advances in multimodal large language models have driven growing interest in graphical user interface (GUI) agents, yet their generalization remains constrained by the scarcity of large-scale training data spanning diverse real-world applications. Existing datasets rely heavily on costly manual annotations and are typically confined to narrow domains. To address this challenge, we propose Video2GUI, a fully automated framework that extracts grounded GUI interaction trajectories directly from unlabeled Internet videos. Video2GUI employs a coarse-to-fine filtering strategy to identify high-quality GUI tutorial videos and convert them into structured agent trajectories. Applying this pipeline to 500 million video metadata entries, we construct WildGUI, a large-scale dataset containing 12 million interaction trajectories spanning over 1,500 applications and websites. Pre-training Qwen2.5-VL and Mimo-VL on WildGUI yields consistent improvements of 5-20% across multiple GUI grounding and action benchmarks, matching or surpassing state-of-the-art performance. We will release both the WildGUI dataset and the Video2GUI pipeline to support future research of GUI agents.

1 Citations
0 Influential
5.5 Altmetric
28.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!