2602.05429v1 Feb 05, 2026 cs.AI

M^2-Miner: 모바일 GUI 에이전트 데이터 마이닝을 위한 멀티 에이전트 강화 MCTS

M$^2$-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining

Rui Lv
Rui Lv
Citations: 3
h-index: 1
Juncheng Mo
Juncheng Mo
Citations: 93
h-index: 2
Tianyi Chu
Tianyi Chu
Citations: 79
h-index: 3
Chen Rao
Chen Rao
Citations: 74
h-index: 2
Hongyi Jing
Hongyi Jing
Citations: 1
h-index: 1
Jiajie Teng
Jiajie Teng
Citations: 8
h-index: 2
Jiafu Chen
Jiafu Chen
Citations: 198
h-index: 6
Shuo Fang
Shuo Fang
Citations: 1
h-index: 1
Huaizhong Lin
Huaizhong Lin
Citations: 216
h-index: 8
Chenguang Ma
Chenguang Ma
Citations: 10
h-index: 2
Shiqi Zhang
Shiqi Zhang
Citations: 266
h-index: 4
Ziqiang Dang
Ziqiang Dang
Citations: 29
h-index: 3
Lei Zhao
Lei Zhao
Citations: 3
h-index: 1
Li Ding
Li Ding
Citations: 64
h-index: 4

그래픽 사용자 인터페이스(GUI) 에이전트는 지능형 인간-컴퓨터 상호작용 패러다임을 발전시키는 데 중추적인 역할을 합니다. 강력한 GUI 에이전트를 구축하기 위해서는 훈련을 위한 고품질 사용자 행동 궤적 데이터(즉, 의도-궤적 쌍)의 대규모 주석 작업이 필수적입니다. 그러나 수동 주석 방법과 기존의 GUI 에이전트 데이터 마이닝 접근 방식은 일반적으로 높은 구축 비용, 낮은 데이터 품질, 부족한 데이터 풍부성이라는 세 가지 중요한 문제에 직면해 있습니다. 이러한 문제를 해결하기 위해 본 논문에서는 몬테카를로 트리 탐색(MCTS) 기반의 최초 저비용 자동화 모바일 GUI 에이전트 데이터 마이닝 프레임워크인 M^2-Miner를 제안합니다. 데이터 마이닝의 효율성과 품질을 높이기 위해 안내, 가속, 평가를 담당하는 InferAgent, OrchestraAgent, JudgeAgent로 구성된 협업 멀티 에이전트 프레임워크를 제시합니다. 또한 마이닝 효율성을 더욱 강화하고 의도의 다양성을 높이기 위해, 가치 있는 상호작용 궤적을 추가로 추출하는 의도 재활용 전략을 설계했습니다. 더불어 데이터 마이닝 성공률을 향상시키기 위해 점진적 모델 인 더 루프(model-in-the-loop) 훈련 전략을 도입했습니다. 광범위한 실험을 통해 본 프레임워크로 마이닝한 데이터를 사용하여 미세 조정된 GUI 에이전트가 널리 사용되는 여러 모바일 GUI 벤치마크에서 최첨단 성능을 달성함을 입증했습니다. 본 연구는 커뮤니티 연구를 촉진하기 위해 공개될 예정입니다.

Original Abstract

Graphical User Interface (GUI) agent is pivotal to advancing intelligent human-computer interaction paradigms. Constructing powerful GUI agents necessitates the large-scale annotation of high-quality user-behavior trajectory data (i.e., intent-trajectory pairs) for training. However, manual annotation methods and current GUI agent data mining approaches typically face three critical challenges: high construction cost, poor data quality, and low data richness. To address these issues, we propose M$^2$-Miner, the first low-cost and automated mobile GUI agent data-mining framework based on Monte Carlo Tree Search (MCTS). For better data mining efficiency and quality, we present a collaborative multi-agent framework, comprising InferAgent, OrchestraAgent, and JudgeAgent for guidance, acceleration, and evaluation. To further enhance the efficiency of mining and enrich intent diversity, we design an intent recycling strategy to extract extra valuable interaction trajectories. Additionally, a progressive model-in-the-loop training strategy is introduced to improve the success rate of data mining. Extensive experiments have demonstrated that the GUI agent fine-tuned using our mined data achieves state-of-the-art performance on several commonly used mobile GUI benchmarks. Our work will be released to facilitate the community research.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!