정직한 대규모 시각-언어 모델을 위한 지식 경계 설정
Delineating Knowledge Boundaries for Honest Large Vision-Language Models
대규모 시각-언어 모델(VLMs)은 놀라운 다중 모드 성능을 달성했지만, 특히 희소하거나 전문적인 영역에서 사실 오류(hallucination)가 발생하기 쉽습니다. 또한, 현재 모델은 모델의 파라미터 지식 범위를 벗어나는 질문에 대해 거절할 수 있는 능력이 부족합니다. 본 논문에서는 이러한 알려지지 않은 질문에 직면했을 때 VLM의 거절 능력을 향상시키는 체계적인 프레임워크를 제안합니다. 먼저, 모델별 "Visual-Idk" (Visual-I don't know) 데이터셋을 구축하고, 다중 샘플 일관성 검사를 활용하여 알려진 사실과 알려지지 않은 사실을 구별합니다. 그런 다음, 지도 학습 미세 조정(supervised fine-tuning)을 수행하고, 선호도 기반 최적화(예: DPO, ORPO)를 적용하여 모델의 지식 경계를 효과적으로 설정합니다. Visual-Idk 데이터셋에 대한 결과는 제안된 방법이 진실성 비율(Truthful Rate)을 57.9%에서 67.3%로 향상시킨다는 것을 보여줍니다. 또한, 내부 검사를 통해 모델이 단순히 거절 패턴을 암기하는 것이 아니라, 실제로 자신의 경계를 인식한다는 것을 확인했습니다. 본 프레임워크는 의료 및 인지 영역과 같은 데이터 분포가 다른 영역에서도 일반화되어, 더욱 신뢰할 수 있고 신중한 시각 어시스턴트 개발에 기여할 수 있습니다.
Large Vision-Language Models (VLMs) have achieved remarkable multimodal performance yet remain prone to factual hallucinations, particularly in long-tail or specialized domains. Moreover, current models exhibit a weak capacity to refuse queries that exceed their parametric knowledge. In this paper, we propose a systematic framework to enhance the refusal capability of VLMs when facing such unknown questions. We first curate a model-specific "Visual-Idk" (Visual-I don't know) dataset, leveraging multi-sample consistency probing to distinguish between known and unknown facts. We then align the model using supervised fine-tuning followed by preference-aware optimization (e.g., DPO, ORPO) to effectively delineate its knowledge boundaries. Results on the Visual-Idk dataset show our method improves the Truthful Rate from 57.9\% to 67.3\%. Additionally, internal probing also demonstrates that the model genuinely recognizes its boundaries instead of just memorizing refusal patterns. Our framework further generalizes to out-of-distribution medical and perceptual domains, providing a robust path toward more trustworthy and prudent visual assistants.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.