화면에서 실행까지: 다중 모드 GUI 추론을 위한 UI-in-the-Loop 패러다임 연구
What's Missing in Screen-to-Action? Towards a UI-in-the-Loop Paradigm for Multimodal GUI Reasoning
기존의 그래픽 사용자 인터페이스(GUI) 추론 작업은 특히 UI 이해 측면에서 여전히 어려운 과제입니다. 현재 방법은 주로 화면 기반의 직접적인 의사 결정을 활용하는데, 이는 해석 가능성이 부족하고 UI 요소에 대한 포괄적인 이해를 간과하여 결국 작업 실패로 이어집니다. UI의 이해와 상호 작용을 향상시키기 위해, 우리는 UI-in-the-Loop (UILoop)라는 혁신적인 GUI 추론 패러다임을 제안합니다. 우리의 접근 방식은 GUI 추론 작업을 화면-UI 요소-행위의 순환적인 과정으로 간주합니다. UILoop은 다중 모드 대규모 언어 모델(MLLM)이 핵심 UI 요소의 위치, 의미론적 기능 및 실제 사용법을 명시적으로 학습하도록 함으로써, 정확한 요소 탐색을 달성하고 해석 가능한 추론을 수행합니다. 또한, UI 요소에 대한 이해도를 평가하는 더욱 어려운 UI 이해 작업을 제시하고, 세 가지 평가 지표를 사용합니다. 이에 따라, 기존 방법들의 UI 요소 숙련도를 종합적으로 평가하기 위한 26,000개의 샘플로 구성된 벤치마크(UI Comprehension-Bench)를 제공합니다. 광범위한 실험 결과, UILoop은 최첨단 수준의 UI 이해 성능을 달성하며, GUI 추론 작업에서 우수한 결과를 보여줍니다.
Existing Graphical User Interface (GUI) reasoning tasks remain challenging, particularly in UI understanding. Current methods typically rely on direct screen-based decision-making, which lacks interpretability and overlooks a comprehensive understanding of UI elements, ultimately leading to task failure. To enhance the understanding and interaction with UIs, we propose an innovative GUI reasoning paradigm called UI-in-the-Loop (UILoop). Our approach treats the GUI reasoning task as a cyclic Screen-UI elements-Action process. By enabling Multimodal Large Language Models (MLLMs) to explicitly learn the localization, semantic functions, and practical usage of key UI elements, UILoop achieves precise element discovery and performs interpretable reasoning. Furthermore, we introduce a more challenging UI Comprehension task centered on UI elements with three evaluation metrics. Correspondingly, we contribute a benchmark of 26K samples (UI Comprehension-Bench) to comprehensively evaluate existing methods' mastery of UI elements. Extensive experiments demonstrate that UILoop achieves state-of-the-art UI understanding performance while yielding superior results in GUI reasoning tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.