ProactiveMobile: 모바일 기기에서 선제적 지능을 향상시키기 위한 종합적인 벤치마크
ProactiveMobile: A Comprehensive Benchmark for Boosting Proactive Intelligence on Mobile Devices
다중 모드 대규모 언어 모델(MLLM)은 모바일 에이전트 개발에 상당한 진전을 이루었지만, 대부분의 기능은 명시적인 사용자 명령을 실행하는 반응형 패러다임에 국한되어 있습니다. 선제적 지능 패러다임, 즉 에이전트가 자율적으로 사용자의 요구를 예측하고 행동을 시작하는 방식은 모바일 에이전트의 다음 단계입니다. 그러나 실제 복잡성을 해결하고 객관적이고 실행 가능한 평가를 가능하게 하는 벤치마크의 부족으로 인해 개발이 심각하게 지연되고 있습니다. 이러한 문제를 해결하기 위해, 우리는 이 분야의 연구를 체계적으로 발전시키기 위해 설계된 종합적인 벤치마크인 ProactiveMobile을 소개합니다. ProactiveMobile은 선제적 작업을, 온장치에서 수집된 4가지 맥락 신호를 통해 잠재적인 사용자 의도를 추론하고, 63개의 API로 구성된 포괄적인 함수 풀에서 실행 가능한 함수 시퀀스를 생성하는 것으로 정의합니다. 이 벤치마크는 14가지 시나리오에 대한 3,660개 이상의 인스턴스를 포함하며, 다중 답변 주석을 통해 실제 복잡성을 반영합니다. 품질을 보장하기 위해 30명의 전문가 팀이 벤치마크에 대한 최종 감사를 수행하여 사실 정확성, 논리적 일관성 및 행동 가능성을 검증하고, 규정을 준수하지 않는 항목을 수정합니다. 광범위한 실험 결과, 미세 조정된 Qwen2.5-VL-7B-Instruct 모델이 19.15%의 성공률을 달성하여 o1 (15.71%) 및 GPT-5 (7.39%)보다 뛰어난 성능을 보였습니다. 이러한 결과는 선제성이 현재의 MLLM에서 널리 부족하지만 학습 가능한 중요한 역량이며, 제안된 벤치마크가 선제성 평가에 매우 중요하다는 것을 시사합니다.
Multimodal large language models (MLLMs) have made significant progress in mobile agent development, yet their capabilities are predominantly confined to a reactive paradigm, where they merely execute explicit user commands. The emerging paradigm of proactive intelligence, where agents autonomously anticipate needs and initiate actions, represents the next frontier for mobile agents. However, its development is critically bottlenecked by the lack of benchmarks that can address real-world complexity and enable objective, executable evaluation. To overcome these challenges, we introduce ProactiveMobile, a comprehensive benchmark designed to systematically advance research in this domain. ProactiveMobile formalizes the proactive task as inferring latent user intent across four dimensions of on-device contextual signals and generating an executable function sequence from a comprehensive function pool of 63 APIs. The benchmark features over 3,660 instances of 14 scenarios that embrace real-world complexity through multi-answer annotations. To ensure quality, a team of 30 experts conducts a final audit of the benchmark, verifying factual accuracy, logical consistency, and action feasibility, and correcting any non-compliant entries. Extensive experiments demonstrate that our fine-tuned Qwen2.5-VL-7B-Instruct achieves a success rate of 19.15%, outperforming o1 (15.71%) and GPT-5 (7.39%). This result indicates that proactivity is a critical competency widely lacking in current MLLMs, yet it is learnable, emphasizing the importance of the proposed benchmark for proactivity evaluation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.