2604.26419v1 Apr 29, 2026 cs.CV

정직한 대규모 시각-언어 모델을 위한 지식 경계 설정

Delineating Knowledge Boundaries for Honest Large Vision-Language Models

Lizhen Cui
Lizhen Cui
Citations: 74
h-index: 3
Junru Song
Junru Song
Citations: 52
h-index: 5
Yi Hu
Yi Hu
Citations: 11
h-index: 1
Yijing Chen
Yijing Chen
Citations: 5
h-index: 2
Huining Li
Huining Li
Citations: 1
h-index: 1
Qian Li
Qian Li
Citations: 9
h-index: 1
Yuntao Du
Yuntao Du
Citations: 469
h-index: 5

대규모 시각-언어 모델(VLMs)은 놀라운 다중 모드 성능을 달성했지만, 특히 희소하거나 전문적인 영역에서 사실 오류(hallucination)가 발생하기 쉽습니다. 또한, 현재 모델은 모델의 파라미터 지식 범위를 벗어나는 질문에 대해 거절할 수 있는 능력이 부족합니다. 본 논문에서는 이러한 알려지지 않은 질문에 직면했을 때 VLM의 거절 능력을 향상시키는 체계적인 프레임워크를 제안합니다. 먼저, 모델별 "Visual-Idk" (Visual-I don't know) 데이터셋을 구축하고, 다중 샘플 일관성 검사를 활용하여 알려진 사실과 알려지지 않은 사실을 구별합니다. 그런 다음, 지도 학습 미세 조정(supervised fine-tuning)을 수행하고, 선호도 기반 최적화(예: DPO, ORPO)를 적용하여 모델의 지식 경계를 효과적으로 설정합니다. Visual-Idk 데이터셋에 대한 결과는 제안된 방법이 진실성 비율(Truthful Rate)을 57.9%에서 67.3%로 향상시킨다는 것을 보여줍니다. 또한, 내부 검사를 통해 모델이 단순히 거절 패턴을 암기하는 것이 아니라, 실제로 자신의 경계를 인식한다는 것을 확인했습니다. 본 프레임워크는 의료 및 인지 영역과 같은 데이터 분포가 다른 영역에서도 일반화되어, 더욱 신뢰할 수 있고 신중한 시각 어시스턴트 개발에 기여할 수 있습니다.

Original Abstract

Large Vision-Language Models (VLMs) have achieved remarkable multimodal performance yet remain prone to factual hallucinations, particularly in long-tail or specialized domains. Moreover, current models exhibit a weak capacity to refuse queries that exceed their parametric knowledge. In this paper, we propose a systematic framework to enhance the refusal capability of VLMs when facing such unknown questions. We first curate a model-specific "Visual-Idk" (Visual-I don't know) dataset, leveraging multi-sample consistency probing to distinguish between known and unknown facts. We then align the model using supervised fine-tuning followed by preference-aware optimization (e.g., DPO, ORPO) to effectively delineate its knowledge boundaries. Results on the Visual-Idk dataset show our method improves the Truthful Rate from 57.9\% to 67.3\%. Additionally, internal probing also demonstrates that the model genuinely recognizes its boundaries instead of just memorizing refusal patterns. Our framework further generalizes to out-of-distribution medical and perceptual domains, providing a robust path toward more trustworthy and prudent visual assistants.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!