SafeGround: 불확실성 교정을 통한 GUI 기반 모델의 신뢰성 판단 방법
SafeGround: Know When to Trust GUI Grounding Models via Uncertainty Calibration
GUI(Graphical User Interface) 기반 모델은 자연어 명령을 실행 가능한 화면 좌표로 변환하여 자동화된 GUI 상호작용을 가능하게 합니다. 그러나 부정확한 변환은 비용이 많이 들고 되돌리기 어려운 작업(예: 잘못된 결제 승인)을 초래할 수 있으며, 이는 모델의 신뢰성에 대한 우려를 불러일으킵니다. 본 논문에서는 GUI 기반 모델의 위험 관리 기능을 제공하는 불확실성을 고려한 프레임워크인 SafeGround를 소개합니다. SafeGround는 테스트 전에 교정을 수행하여 위험을 고려한 예측을 가능하게 합니다. SafeGround는 주어진 모델의 출력에서 얻은 확률적 샘플의 공간적 분산을 파악하기 위해 분포를 고려한 불확실성 측정 방법을 활용합니다. 그런 다음, SafeGround는 교정 과정을 통해 통계적으로 보장된 오탐지율(FDR) 제어를 갖는 테스트 시간 의사 결정 임계값을 도출합니다. 저희는 SafeGround를 어려운 ScreenSpot-Pro 벤치마크를 위한 여러 GUI 기반 모델에 적용했습니다. 실험 결과, 저희의 불확실성 측정 방법은 기존의 기준 모델보다 일관되게 정확한 예측과 부정확한 예측을 구별하는 데 우수한 성능을 보였습니다. 또한, 교정된 임계값은 엄격한 위험 관리를 가능하게 하며, 시스템 수준의 정확도를 크게 향상시킬 수 있습니다. 여러 GUI 기반 모델에 대해, SafeGround는 Gemini만 사용하는 경우보다 시스템 수준의 정확도를 최대 5.38% 포인트까지 향상시켰습니다.
Graphical User Interface (GUI) grounding aims to translate natural language instructions into executable screen coordinates, enabling automated GUI interaction. Nevertheless, incorrect grounding can result in costly, hard-to-reverse actions (e.g., erroneous payment approvals), raising concerns about model reliability. In this paper, we introduce SafeGround, an uncertainty-aware framework for GUI grounding models that enables risk-aware predictions through calibrations before testing. SafeGround leverages a distribution-aware uncertainty quantification method to capture the spatial dispersion of stochastic samples from outputs of any given model. Then, through the calibration process, SafeGround derives a test-time decision threshold with statistically guaranteed false discovery rate (FDR) control. We apply SafeGround on multiple GUI grounding models for the challenging ScreenSpot-Pro benchmark. Experimental results show that our uncertainty measure consistently outperforms existing baselines in distinguishing correct from incorrect predictions, while the calibrated threshold reliably enables rigorous risk control and potentials of substantial system-level accuracy improvements. Across multiple GUI grounding models, SafeGround improves system-level accuracy by up to 5.38% percentage points over Gemini-only inference.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.