FocusUI: 위치 정보 보존을 통한 효율적인 UI 기반 지향 모델
FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection
비전-언어 모델(VLMs)은 고해상도 스크린샷을 처리하는 능력 덕분에 사용자 인터페이스(UI) 기반 지향 작업에서 뛰어난 성능을 보여주었습니다. 그러나 스크린샷은 수천 개의 시각적 토큰으로 분할되는데 (예: 2K 해상도의 경우 약 4700개), 이는 상당한 계산 오버헤드를 발생시키고 어텐션 메커니즘을 저하시킵니다. 반면, 사용자는 UI와 상호 작용할 때 일반적으로 관심 영역에 집중합니다. 본 연구에서는 효율적인 UI 기반 지향 작업을 위한 새로운 프레임워크인 FocusUI를 제안합니다. 본 연구는 작업의 특성과 과제를 분석하여, 명령어와 관련된 패치를 선택하면서 정확한 지향을 위해 위치 정보를 유지하는 효율적인 UI 기반 지향 프레임워크인 FocusUI를 개발했습니다. FocusUI는 다음과 같은 두 가지 주요 과제를 해결합니다. (1) 시각적 인코딩에서 불필요한 토큰 제거: 명령어에 따라 부여된 점수와 규칙 기반 UI 그래프 점수를 결합하여, 명령어와 관련된 뚜렷한 시각적 토큰을 선택하고, 넓고 균일한 영역에 대한 가중치를 낮추어 패치 수준의 감독 신호를 생성합니다. (2) 시각적 토큰 선택 중 위치 정보 보존: 일반적인 시각적 토큰 제거 방법은 UI 기반 지향 작업에서 위치 정보가 손실되어 정확도가 크게 저하되는 문제가 있습니다. 우리는 이러한 문제를 해결하기 위해, 삭제된 연속적인 시각적 토큰 시퀀스를 해당 시퀀스의 마지막 인덱스에 배치된 단일 특수 마커로 압축하는 새로운 PosPad 전략을 도입했습니다. 네 가지 지향 벤치마크에 대한 광범위한 실험 결과, FocusUI는 기존의 UI 특화 모델을 능가하는 성능을 보여주었습니다. ScreenSpot-Pro 벤치마크에서 FocusUI-7B는 GUI-Actor-7B보다 3.7% 더 높은 성능을 달성했습니다. 또한, 시각적 토큰 유지율이 30%로 줄어들었음에도 불구하고, FocusUI-7B는 성능 저하가 3.2%에 불과했으며, 최대 1.44배 빠른 추론 속도와 17% 더 낮은 최대 GPU 메모리 사용량을 보였습니다.
Vision-Language Models (VLMs) have shown remarkable performance in User Interface (UI) grounding tasks, driven by their ability to process increasingly high-resolution screenshots. However, screenshots are tokenized into thousands of visual tokens (e.g., about 4700 for 2K resolution), incurring significant computational overhead and diluting attention. In contrast, humans typically focus on regions of interest when interacting with UI. In this work, we pioneer the task of efficient UI grounding. Guided by practical analysis of the task's characteristics and challenges, we propose FocusUI, an efficient UI grounding framework that selects patches most relevant to the instruction while preserving positional continuity for precise grounding. FocusUI addresses two key challenges: (1) Eliminating redundant tokens in visual encoding. We construct patch-level supervision by fusing an instruction-conditioned score with a rule-based UI-graph score that down-weights large homogeneous regions to select distinct and instruction-relevant visual tokens. (2) Preserving positional continuity during visual token selection. We find that general visual token pruning methods suffer from severe accuracy degradation on UI grounding tasks due to broken positional information. We introduce a novel PosPad strategy, which compresses each contiguous sequence of dropped visual tokens into a single special marker placed at the sequence's last index to preserve positional continuity. Comprehensive experiments on four grounding benchmarks demonstrate that FocusUI surpasses GUI-specific baselines. On the ScreenSpot-Pro benchmark, FocusUI-7B achieves a performance improvement of 3.7% over GUI-Actor-7B. Even with only 30% visual token retention, FocusUI-7B drops by only 3.2% while achieving up to 1.44x faster inference and 17% lower peak GPU memory.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.