2604.14113v1 Apr 15, 2026 cs.CV

UI-Zoomer: 불확실성 기반의 적응형 확대 기능을 활용한 GUI 객체 인식

UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding

Yueting Zhuang
Yueting Zhuang
Citations: 462
h-index: 12
Yongliang Shen
Yongliang Shen
Citations: 265
h-index: 9
Jun Xiao
Jun Xiao
Citations: 179
h-index: 7
Weiming Lu
Weiming Lu
Citations: 106
h-index: 3
Tong-I Chen
Tong-I Chen
Citations: 1
h-index: 1
Zhengxi Lu
Zhengxi Lu
Citations: 197
h-index: 5
Fei Tang
Fei Tang
Citations: 140
h-index: 6
Songqin Nong
Songqin Nong
Citations: 35
h-index: 2
Bo Chen
Bo Chen
Citations: 5
h-index: 1
Taoran Jiang
Taoran Jiang
Citations: 18
h-index: 1
Wenhao Xu
Wenhao Xu
Citations: 58
h-index: 2

GUI 객체 인식은 자연어 질의에 따라 스크린샷에서 인터페이스 요소를 찾는 기술로, 특히 작은 아이콘이나 복잡한 레이아웃에서 어려움을 겪습니다. 테스트 단계에서 확대 기능을 활용하는 방법은 더 높은 해상도로 영역을 잘라내고 추론을 다시 수행하여 위치 정확도를 향상시키지만, 모든 객체에 대해 동일한 크기로 잘라내어 모델의 불확실성을 고려하지 않습니다. 본 논문에서는 모델 학습 없이 적응적으로 확대 기능을 적용하는 프레임워크인 **UI-Zoomer**를 제안합니다. UI-Zoomer는 확대 실행 여부와 확대 크기를 예측 불확실성 정량화 문제로 간주합니다. 신뢰도 기반 게이트는 확률적 후보들 간의 공간적 합의와 토큰 수준의 생성 신뢰도를 결합하여, 위치 인식이 불확실한 경우에만 선택적으로 확대 기능을 실행합니다. 확대 기능이 실행되면, 불확실성을 기반으로 하는 영역 크기 결정 모듈은 예측 분산을 샘플 간 위치 분포와 샘플 내 경계 상자 범위로 분해하여, 총 분산 법칙을 통해 각 객체에 대한 적절한 확대 영역 반경을 결정합니다. ScreenSpot-Pro, UI-Vision, ScreenSpot-v2 데이터셋에 대한 광범위한 실험 결과, 다양한 모델 아키텍처에서 강력한 기본 모델 대비 일관된 성능 향상을 보였으며, 각각 +13.4%, +10.3%, +4.2%의 성능 향상을 달성했습니다. 이러한 성능 향상은 추가적인 학습 없이 달성되었습니다.

Original Abstract

GUI grounding, which localizes interface elements from screenshots given natural language queries, remains challenging for small icons and dense layouts. Test-time zoom-in methods improve localization by cropping and re-running inference at higher resolution, but apply cropping uniformly across all instances with fixed crop sizes, ignoring whether the model is actually uncertain on each case. We propose \textbf{UI-Zoomer}, a training-free adaptive zoom-in framework that treats both the trigger and scale of zoom-in as a prediction uncertainty quantification problem. A confidence-aware gate fuses spatial consensus among stochastic candidates with token-level generation confidence to selectively trigger zoom-in only when localization is uncertain. When triggered, an uncertainty-driven crop sizing module decomposes prediction variance into inter-sample positional spread and intra-sample box extent, deriving a per-instance crop radius via the law of total variance. Extensive experiments on ScreenSpot-Pro, UI-Vision, and ScreenSpot-v2 demonstrate consistent improvements over strong baselines across multiple model architectures, achieving gains of up to +13.4\%, +10.3\%, and +4.2\% respectively, with no additional training required.

0 Citations
0 Influential
6 Altmetric
30.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!