MobileBench-OL: 실제 환경에서 모바일 GUI 에이전트를 평가하기 위한 포괄적인 중국어 벤치마크
MobileBench-OL: A Comprehensive Chinese Benchmark for Evaluating Mobile GUI Agents in Real-World Environment
모바일 그래픽 사용자 인터페이스(GUI) 에이전트의 최근 발전은 포괄적인 평가 벤치마크의 필요성을 강조합니다. 새로운 온라인 벤치마크는 오프라인 벤치마크보다 더 현실적인 테스트를 제공하지만, 에이전트의 작업 지시 수행 능력에 초점을 맞추는 경향이 있으며, 추론 및 탐색 능력은 간과됩니다. 또한, 이러한 벤치마크는 실제 모바일 환경의 무작위 노이즈를 고려하지 않습니다. 이는 벤치마크와 실제 환경 간의 격차를 야기합니다. 이러한 한계점을 해결하기 위해, 우리는 80개의 중국 앱에서 추출한 1080개의 작업으로 구성된 온라인 벤치마크인 MobileBench-OL을 제안합니다. MobileBench-OL은 5개의 하위 집합을 포함하여 작업 실행, 복잡한 추론, 노이즈 강건성을 측정하며, 다양한 평가 차원을 설정합니다. 또한, 안정적이고 반복 가능한 실제 환경 벤치마크를 가능하게 하는 자동 평가 프레임워크와 재설정 기능을 제공합니다. MobileBench-OL을 사용하여 12개의 선도적인 GUI 에이전트를 평가한 결과, 실제 요구 사항을 충족하기 위해서는 상당한 개선의 여지가 있음을 보여줍니다. 인간 평가 결과는 MobileBench-OL이 실제 환경에서 선도적인 GUI 에이전트의 성능을 신뢰성 있게 측정할 수 있음을 확인합니다. 데이터와 코드는 논문 채택 시 공개될 예정입니다.
Recent advances in mobile Graphical User Interface (GUI) agents highlight the growing need for comprehensive evaluation benchmarks. While new online benchmarks offer more realistic testing than offline ones, they tend to focus on the agents' task instruction-following ability while neglecting their reasoning and exploration ability. Moreover, these benchmarks do not consider the random noise in real-world mobile environments. This leads to a gap between benchmarks and real-world environments. To addressing these limitations, we propose MobileBench-OL, an online benchmark with 1080 tasks from 80 Chinese apps. It measures task execution, complex reasoning, and noise robustness of agents by including 5 subsets, which set multiple evaluation dimensions. We also provide an auto-eval framework with a reset mechanism, enabling stable and repeatable real-world benchmarking. Evaluating 12 leading GUI agents on MobileBench-OL shows significant room for improvement to meet real-world requirements. Human evaluation further confirms that MobileBench-OL can reliably measure the performance of leading GUI agents in real environments. Our data and code will be released upon acceptance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.