2601.06899v2 Jan 11, 2026 cs.AI

V2P: 배경 억제 및 중심 피킹을 통한 GUI 그라운딩용 시각적 주의 보정

V2P: Visual Attention Calibration for GUI Grounding via Background Suppression and Center Peaking

Jikai Chen
Jikai Chen
Citations: 5
h-index: 2
Long Chen
Long Chen
Citations: 9
h-index: 2
Dong Wang
Dong Wang
Citations: 43
h-index: 3
Qinglin Su
Qinglin Su
Citations: 4
h-index: 1
Bingguang Hao
Bingguang Hao
Citations: 50
h-index: 3
Leilei Gan
Leilei Gan
Citations: 6
h-index: 2
Chenyi Zhuang
Chenyi Zhuang
Citations: 262
h-index: 9
Jinjie Gu
Jinjie Gu
Citations: 209
h-index: 8
Zhixuan Chu
Zhixuan Chu
Citations: 1,044
h-index: 10

GUI 요소의 정밀한 위치 파악은 GUI 에이전트 개발에 있어 매우 중요하다. 기존 방법들은 바운딩 박스나 중심점 회귀에 의존하여, 공간적 상호작용의 불확실성과 시각-의미적 계층 구조를 간과하는 경향이 있었다. 최근 방법들은 어텐션 메커니즘을 통합했으나 여전히 두 가지 주요 문제에 직면해 있다. 첫째, 배경 영역 처리를 무시함으로써 원하는 영역에서 주의가 이탈(drift)하는 현상이 발생하고, 둘째, 타겟 UI 요소를 균일하게 모델링함으로써 중심과 가장자리를 구분하지 못해 클릭의 부정확성을 초래한다. 인간이 GUI 요소를 시각적으로 처리하고 상호작용하는 방식에서 영감을 받아, 우리는 이러한 문제를 해결하기 위해 Valley-to-Peak (V2P) 방법을 제안한다. 배경의 방해를 완화하기 위해 V2P는 억제 어텐션 메커니즘을 도입하여 모델이 관련 없는 영역에 집중하는 것을 최소화하고 의도한 영역을 부각시킨다. 중심과 가장자리의 구별 문제를 위해, V2P는 피츠의 법칙(Fitts' Law)에서 영감을 받아 GUI 상호작용을 중심에서 가장자리로 갈수록 가중치가 점차 감소하는 2D 가우시안 히트맵으로 모델링한다. 이 가중치 분포는 가우시안 함수를 따르며, 분산은 타겟의 크기에 따라 결정된다. 결과적으로 V2P는 타겟 영역을 효과적으로 분리하고 모델이 UI 요소의 가장 핵심적인 지점에 집중하도록 유도한다. V2P로 훈련된 모델은 ScreenSpot-v2와 ScreenSpot-Pro 벤치마크에서 각각 92.4%와 52.5%의 성능을 달성했다. 소거 연구(Ablation study)는 각 구성 요소의 기여를 추가로 확인시켜 주었으며, 정밀 GUI 그라운딩 작업에서의 V2P의 범용성과 향후 실제 GUI 에이전트 배포에 대한 잠재력을 강조한다.

Original Abstract

Precise localization of GUI elements is crucial for the development of GUI agents. Traditional methods rely on bounding box or center-point regression, neglecting spatial interaction uncertainty and visual-semantic hierarchies. Recent methods incorporate attention mechanisms but still face two key issues: (1) ignoring processing background regions causes attention drift from the desired area, and (2) uniform modeling the target UI element fails to distinguish between its center and edges, leading to click imprecision. Inspired by how humans visually process and interact with GUI elements, we propose the Valley-to-Peak (V2P) method to address these issues. To mitigate background distractions, V2P introduces a suppression attention mechanism that minimizes the model's focus on irrelevant regions to highlight the intended region. For the issue of center-edge distinction, V2P applies a Fitts' Law-inspired approach by modeling GUI interactions as 2D Gaussian heatmaps where the weight gradually decreases from the center towards the edges. The weight distribution follows a Gaussian function, with the variance determined by the target's size. Consequently, V2P effectively isolates the target area and teaches the model to concentrate on the most essential point of the UI element. The model trained by V2P achieves the performance with 92.4\% and 52.5\% on two benchmarks ScreenSpot-v2 and ScreenSpot-Pro (see Fig.~\ref{fig:main_results_charts}). Ablations further confirm each component's contribution, underscoring V2P's generalizability in precise GUI grounding tasks and its potential for real-world deployment in future GUI agents.

3 Citations
0 Influential
5 Altmetric
28.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!