2602.11750v1 Feb 12, 2026 cs.SE

AmbiBench: 실제 환경에서 단발성 명령을 넘어선 모바일 GUI 에이전트 벤치마킹

AmbiBench: Benchmarking Mobile GUI Agents Beyond One-Shot Instructions in the Wild

Jiazheng Sun
Jiazheng Sun
Citations: 1
h-index: 1
Mingxuan Li
Mingxuan Li
Citations: 23
h-index: 2
Yingying Zhang
Yingying Zhang
Citations: 1
h-index: 1
Jiayang Niu
Jiayang Niu
Citations: 1
h-index: 1
Yachen Wu
Yachen Wu
Citations: 8
h-index: 1
Ruihan Jin
Ruihan Jin
Citations: 37
h-index: 4
Shuyu Lei
Shuyu Lei
Citations: 0
h-index: 0
P. Tan
P. Tan
Citations: 14
h-index: 3
Zongyu Zhang
Zongyu Zhang
Citations: 33
h-index: 2
Jiacheng Yang
Jiacheng Yang
Citations: 11
h-index: 1
Boyu Yang
Boyu Yang
Citations: 31
h-index: 2
Jiacheng Liu
Jiacheng Liu
Citations: 39
h-index: 2
Xin Peng
Xin Peng
Citations: 36
h-index: 3
Ruoyi Wang
Ruoyi Wang
Citations: 5
h-index: 2

모바일 GUI 에이전트 분야에서 발전 정도를 측정하기 위해 벤치마크는 매우 중요하다. 실제 상황에서 사용자는 처음부터 작업의 전체 세부 정보를 포함하는 정확한 지시를 명확히 표현하지 못하는 경우가 많으며, 그 표현은 대개 모호하다. 따라서 에이전트는 실행 과정에서 적극적인 명확화 및 상호작용을 통해 사용자의 진정한 의도를 파악해야 한다. 그러나 기존 벤치마크들은 주로 사용자가 내린 명령이 완전하고 명확하다는 이상적인 가정 하에 운영된다. 이러한 패러다임은 에이전트의 의도 조정(alignment) 능력을 간과한 채 단일 턴(single-turn) 실행을 평가하는 데만 초점을 맞춘다. 이러한 한계를 해결하기 위해, 우리는 평가의 초점을 단방향 명령 수행에서 양방향 의도 조정으로 전환하도록 명령 명확성 분류 체계를 통합한 최초의 벤치마크인 AmbiBench를 소개한다. 인지적 격차(Cognitive Gap) 이론에 기반하여, 우리는 상세(Detailed), 표준(Standard), 불완전(Incomplete), 모호(Ambiguous)의 4가지 명확성 수준으로 구성된 분류 체계를 제안한다. 우리는 엄격한 검토 프로토콜을 거쳐 25개 애플리케이션에 걸쳐 생태학적으로 타당한 240개의 작업으로 구성된 정밀한 데이터셋을 구축했다. 나아가 동적 환경에서의 평가를 목표로, 심사자로서의 다중 모달 대형 언어 모델(MLLM-as-a-judge) 다중 에이전트 아키텍처를 활용하는 자동화 프레임워크인 MUSE(Mobile User Satisfaction Evaluator)를 개발했다. MUSE는 결과의 효과성(Outcome Effectiveness), 실행 품질(Execution Quality), 상호작용 품질(Interaction Quality)의 세 가지 차원에 걸쳐 세밀한 감사를 수행한다. AmbiBench에 대한 실증적 결과는 다양한 명확성 수준에 따른 최첨단(SoTA) 에이전트의 성능 한계를 밝히고, 적극적인 상호작용을 통해 얻은 이점을 정량화하며, MUSE와 인간의 판단 간의 강한 상관관계를 검증한다. 이 연구는 평가 기준을 재정의하여 사용자의 의도를 진정으로 이해할 수 있는 차세대 에이전트를 위한 기반을 마련한다.

Original Abstract

Benchmarks are paramount for gauging progress in the domain of Mobile GUI Agents. In practical scenarios, users frequently fail to articulate precise directives containing full task details at the onset, and their expressions are typically ambiguous. Consequently, agents are required to converge on the user's true intent via active clarification and interaction during execution. However, existing benchmarks predominantly operate under the idealized assumption that user-issued instructions are complete and unequivocal. This paradigm focuses exclusively on assessing single-turn execution while overlooking the alignment capability of the agent. To address this limitation, we introduce AmbiBench, the first benchmark incorporating a taxonomy of instruction clarity to shift evaluation from unidirectional instruction following to bidirectional intent alignment. Grounded in Cognitive Gap theory, we propose a taxonomy of four clarity levels: Detailed, Standard, Incomplete, and Ambiguous. We construct a rigorous dataset of 240 ecologically valid tasks across 25 applications, subject to strict review protocols. Furthermore, targeting evaluation in dynamic environments, we develop MUSE (Mobile User Satisfaction Evaluator), an automated framework utilizing an MLLM-as-a-judge multi-agent architecture. MUSE performs fine-grained auditing across three dimensions: Outcome Effectiveness, Execution Quality, and Interaction Quality. Empirical results on AmbiBench reveal the performance boundaries of SoTA agents across different clarity levels, quantify the gains derived from active interaction, and validate the strong correlation between MUSE and human judgment. This work redefines evaluation standards, laying the foundation for next-generation agents capable of truly understanding user intent.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!