LLM은 모든 것을 학습해야 할까? LLM 기반 스마트폰 자동화의 실패 사례 분석 및 벤치마크: 스크린 텍스트 vs. 스크린샷
Do LLMs Need to See Everything? A Benchmark and Study of Failures in LLM-driven Smartphone Automation using Screentext vs. Screenshots
대규모 언어 모델(LLM)의 급속한 발전과 함께, 모바일 에이전트는 스마트폰 자동화를 위한 유망한 도구로 부상하여, 화면 상의 인간과 유사한 상호 작용을 시뮬레이션하여 복잡한 작업을 수행합니다. 그러나 이러한 에이전트는 종종 낮은 정확도, 사용자 지시의 오해, 그리고 어려운 작업에서의 실패를 겪으며, 이러한 실패의 원인과 발생 지점에 대한 연구는 아직 부족합니다. 이러한 문제점을 해결하기 위해, 우리는 25개의 안드로이드 앱에 걸쳐 5가지 시나리오, 총 75개의 작업으로 구성된 벤치마크인 DailyDroid를 소개합니다. 이 벤치마크는 쉬움, 보통, 어려움의 세 가지 난이도를 포함하며, 일상적인 스마트폰 사용을 모방합니다. GPT-4o 및 o4-mini 모델을 사용하여 텍스트만 입력하거나 텍스트와 스크린샷을 함께 입력하는 방식으로 300번의 테스트를 진행한 결과, 멀티모달 입력이 약간 더 높은 성공률을 보였습니다. 심층적인 실패 분석을 통해, 일반적인 실패 사례를 담은 핸드북을 작성했습니다. 우리의 연구 결과는 UI 접근성, 입력 방식, 그리고 LLM/앱 설계에 대한 중요한 문제점을 드러내며, 향후 모바일 에이전트, 애플리케이션, 그리고 UI 개발에 대한 시사점을 제공합니다.
With the rapid advancement of large language models (LLMs), mobile agents have emerged as promising tools for phone automation, simulating human interactions on screens to accomplish complex tasks. However, these agents often suffer from low accuracy, misinterpretation of user instructions, and failure on challenging tasks, with limited prior work examining why and where they fail. To address this, we introduce DailyDroid, a benchmark of 75 tasks in five scenarios across 25 Android apps, spanning three difficulty levels to mimic everyday smartphone use. We evaluate it using text-only and multimodal (text + screenshot) inputs on GPT-4o and o4-mini across 300 trials, revealing comparable performance with multimodal inputs yielding marginally higher success rates. Through in-depth failure analysis, we compile a handbook of common failures. Our findings reveal critical issues in UI accessibility, input modalities, and LLM/app design, offering implications for future mobile agents, applications, and UI development.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.