M^2-Miner: 모바일 GUI 에이전트 데이터 마이닝을 위한 멀티 에이전트 강화 MCTS
M$^2$-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining
그래픽 사용자 인터페이스(GUI) 에이전트는 지능형 인간-컴퓨터 상호작용 패러다임을 발전시키는 데 중추적인 역할을 합니다. 강력한 GUI 에이전트를 구축하기 위해서는 훈련을 위한 고품질 사용자 행동 궤적 데이터(즉, 의도-궤적 쌍)의 대규모 주석 작업이 필수적입니다. 그러나 수동 주석 방법과 기존의 GUI 에이전트 데이터 마이닝 접근 방식은 일반적으로 높은 구축 비용, 낮은 데이터 품질, 부족한 데이터 풍부성이라는 세 가지 중요한 문제에 직면해 있습니다. 이러한 문제를 해결하기 위해 본 논문에서는 몬테카를로 트리 탐색(MCTS) 기반의 최초 저비용 자동화 모바일 GUI 에이전트 데이터 마이닝 프레임워크인 M^2-Miner를 제안합니다. 데이터 마이닝의 효율성과 품질을 높이기 위해 안내, 가속, 평가를 담당하는 InferAgent, OrchestraAgent, JudgeAgent로 구성된 협업 멀티 에이전트 프레임워크를 제시합니다. 또한 마이닝 효율성을 더욱 강화하고 의도의 다양성을 높이기 위해, 가치 있는 상호작용 궤적을 추가로 추출하는 의도 재활용 전략을 설계했습니다. 더불어 데이터 마이닝 성공률을 향상시키기 위해 점진적 모델 인 더 루프(model-in-the-loop) 훈련 전략을 도입했습니다. 광범위한 실험을 통해 본 프레임워크로 마이닝한 데이터를 사용하여 미세 조정된 GUI 에이전트가 널리 사용되는 여러 모바일 GUI 벤치마크에서 최첨단 성능을 달성함을 입증했습니다. 본 연구는 커뮤니티 연구를 촉진하기 위해 공개될 예정입니다.
Graphical User Interface (GUI) agent is pivotal to advancing intelligent human-computer interaction paradigms. Constructing powerful GUI agents necessitates the large-scale annotation of high-quality user-behavior trajectory data (i.e., intent-trajectory pairs) for training. However, manual annotation methods and current GUI agent data mining approaches typically face three critical challenges: high construction cost, poor data quality, and low data richness. To address these issues, we propose M$^2$-Miner, the first low-cost and automated mobile GUI agent data-mining framework based on Monte Carlo Tree Search (MCTS). For better data mining efficiency and quality, we present a collaborative multi-agent framework, comprising InferAgent, OrchestraAgent, and JudgeAgent for guidance, acceleration, and evaluation. To further enhance the efficiency of mining and enrich intent diversity, we design an intent recycling strategy to extract extra valuable interaction trajectories. Additionally, a progressive model-in-the-loop training strategy is introduced to improve the success rate of data mining. Extensive experiments have demonstrated that the GUI agent fine-tuned using our mined data achieves state-of-the-art performance on several commonly used mobile GUI benchmarks. Our work will be released to facilitate the community research.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.