KnowU-Bench: 상호 작용적, 능동적, 맞춤형 모바일 에이전트 평가를 향하여
KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation
사용자 선호도를 추론하고 능동적인 지원을 제공하는 맞춤형 모바일 에이전트는 일상생활의 디지털 도우미로서 큰 잠재력을 가지고 있지만, 기존의 벤치마크는 이러한 기능을 제대로 평가하지 못합니다. 기존 연구에서는 정적인 기록에서 선호도를 복구하거나 고정된 맥락에서 의도를 예측하는 것을 평가합니다. 그러나 이러한 연구는 에이전트가 상호 작용을 통해 누락된 선호도를 이끌어낼 수 있는지, 그리고 실시간 GUI 환경에서 언제 개입해야 하는지, 동의를 구해야 하는지, 또는 침묵해야 하는지를 판단할 수 있는지 여부를 테스트하지 않습니다. 본 논문에서는 Android 에뮬레이션 환경을 기반으로 구축된 온라인 벤치마크인 KnowU-Bench를 소개합니다. KnowU-Bench는 42가지의 일반적인 GUI 작업, 86가지의 맞춤형 작업, 그리고 64가지의 능동적인 작업을 포함합니다. 기존 연구가 사용자 선호도를 정적인 맥락으로 취급하는 것과 달리, KnowU-Bench는 사용자 프로필을 에이전트로부터 숨기고 행동 로그만 노출하여, 진정한 선호도 추론을 유도하고 단순히 맥락을 참조하는 것을 방지합니다. KnowU-Bench는 구조화된 프로필을 기반으로 하는 LLM 기반 사용자 시뮬레이터를 활용하여 다단계 선호도 이끌어내기를 지원하며, 이를 통해 현실적인 명확화 대화와 능동적인 동의 처리가 가능합니다. KnowU-Bench는 맞춤화뿐만 아니라, GUI 실행, 동의 협상, 거부 후 제약 등 전체적인 능동적 의사 결정 과정을 포괄적으로 평가합니다. 이러한 평가는 규칙 기반 검증과 LLM-as-a-Judge 점수를 결합한 하이브리드 프로토콜을 통해 이루어집니다. 실험 결과, 명시적인 작업 실행에 뛰어난 에이전트조차도 사용자 선호도 추론이나 개입 조정이 필요한 모호한 지시 사항에 대해서는 50% 이하의 성능을 보이는 것으로 나타났습니다. Claude Sonnet 4.6과 같은 최첨단 모델에서도 이러한 현상이 나타났습니다. 핵심적인 병목 지점은 GUI 탐색이 아니라 선호도 획득 및 개입 조정이며, 이는 유능한 인터페이스 작동 능력과 신뢰할 수 있는 개인 지원 능력 간의 근본적인 격차를 보여줍니다.
Personalized mobile agents that infer user preferences and calibrate proactive assistance hold great promise as everyday digital assistants, yet existing benchmarks fail to capture what this requires. Prior work evaluates preference recovery from static histories or intent prediction from fixed contexts. Neither tests whether an agent can elicit missing preferences through interaction, nor whether it can decide when to intervene, seek consent, or remain silent in a live GUI environment. We introduce KnowU-Bench, an online benchmark for personalized mobile agents built on a reproducible Android emulation environment, covering 42 general GUI tasks, 86 personalized tasks, and 64 proactive tasks. Unlike prior work that treats user preferences as static context, KnowU-Bench hides the user profile from the agent and exposes only behavioral logs, forcing genuine preference inference rather than context lookup. To support multi-turn preference elicitation, it instantiates an LLM-driven user simulator grounded in structured profiles, enabling realistic clarification dialogues and proactive consent handling. Beyond personalization, KnowU-Bench provides comprehensive evaluation of the complete proactive decision chain, including grounded GUI execution, consent negotiation, and post-rejection restraint, evaluated through a hybrid protocol combining rule-based verification with LLM-as-a-Judge scoring. Our experiments reveal a striking degradation: agents that excel at explicit task execution fall below 50% under vague instructions requiring user preference inference or intervention calibration, even for frontier models like Claude Sonnet 4.6. The core bottlenecks are not GUI navigation but preference acquisition and intervention calibration, exposing a fundamental gap between competent interface operation and trustworthy personal assistance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.