2602.21054v1 Feb 24, 2026 cs.CV

VAUQ: 시각 정보를 활용한 불확실성 정량화를 통한 LVLM 자체 평가

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

Seongheon Park
Seongheon Park
University of Wisconsin-Madison
Citations: 65
h-index: 4
Changdae Oh
Changdae Oh
Citations: 274
h-index: 8
Hyeong Kyu Choi
Hyeong Kyu Choi
Citations: 0
h-index: 0
Xuefeng Du
Xuefeng Du
Citations: 360
h-index: 9
Sharon Li
Sharon Li
Citations: 122
h-index: 4

대규모 시각-언어 모델(LVLM)은 종종 환각 현상을 보이며, 이는 실제 응용 분야에 안전하게 배포하는 데 제한을 줍니다. 기존 LLM 자체 평가 방법은 모델이 자신의 출력의 정확성을 추정하는 능력에 의존하며, 이는 배포 신뢰성을 향상시킬 수 있지만, 언어적 사전 지식에 크게 의존하기 때문에 시각 정보에 기반한 예측을 평가하는 데 적합하지 않습니다. 본 논문에서는 LVLM 자체 평가를 위한 시각 정보를 활용한 불확실성 정량화 프레임워크인 VAUQ를 제안합니다. VAUQ는 모델의 출력이 시각적 증거에 얼마나 강하게 의존하는지를 명시적으로 측정합니다. VAUQ는 예측 불확실성의 감소량을 시각 입력에 귀속시키는 지표인 Image-Information Score (IS)와 중요한 영역의 영향을 증폭시키는 비지도 핵심 영역 마스킹 전략을 도입합니다. 예측 엔트로피와 핵심 영역 마스킹된 IS를 결합하여 학습이 필요 없는 정확한 평가 함수를 얻으며, 이는 답변의 정확성을 신뢰성 있게 반영합니다. 포괄적인 실험 결과는 VAUQ가 여러 데이터 세트에서 기존의 자체 평가 방법에 비해 일관되게 우수한 성능을 보임을 보여줍니다.

Original Abstract

Large Vision-Language Models (LVLMs) frequently hallucinate, limiting their safe deployment in real-world applications. Existing LLM self-evaluation methods rely on a model's ability to estimate the correctness of its own outputs, which can improve deployment reliability; however, they depend heavily on language priors and are therefore ill-suited for evaluating vision-conditioned predictions. We propose VAUQ, a vision-aware uncertainty quantification framework for LVLM self-evaluation that explicitly measures how strongly a model's output depends on visual evidence. VAUQ introduces the Image-Information Score (IS), which captures the reduction in predictive uncertainty attributable to visual input, and an unsupervised core-region masking strategy that amplifies the influence of salient regions. Combining predictive entropy with this core-masked IS yields a training-free scoring function that reliably reflects answer correctness. Comprehensive experiments show that VAUQ consistently outperforms existing self-evaluation methods across multiple datasets.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!