2603.27982v2 Mar 30, 2026 cs.CV

CDH-벤치: 상식 기반 환각 벤치마크 - 시각적 충실도 평가를 위한 도구

CDH-Bench: A Commonsense-Driven Hallucination Benchmark for Evaluating Visual Fidelity in Vision-Language Models

Kesheng Chen
Kesheng Chen
Citations: 12
h-index: 2
Qi Zhou
Qi Zhou
Citations: 41
h-index: 3
Yamin Hu
Yamin Hu
Citations: 150
h-index: 4
Zhenqian Zhu
Zhenqian Zhu
Citations: 20
h-index: 2
Wenjian Luo
Wenjian Luo
Citations: 8
h-index: 1

시각-언어 모델(VLM)은 다양한 벤치마크에서 뛰어난 성능을 보이지만, 기본적인 신뢰성 문제는 아직 충분히 연구되지 않았습니다. 시각적 증거가 상식과 충돌할 때, 모델은 보여지는 것을 따를까요, 아니면 상식이 제시하는 것을 따를까요? 이 설정에서 흔히 나타나는 문제는 모델이 시각적 증거를 무시하고 상식적으로 맞는 답변을 출력하는 것입니다. 우리는 이러한 현상을 **상식 기반 환각(CDH)**이라고 부릅니다. 이를 평가하기 위해, 우리는 **CDH-벤치**를 소개합니다. CDH-벤치는 명시적인 **시각적 증거와 상식 간의 충돌**을 유발하도록 설계된 벤치마크입니다. CDH-벤치는 세 가지 차원을 포함합니다. 즉, extit{개수 이상}, extit{관계 이상}, 그리고 extit{속성 이상}입니다. 우리는 최첨단 VLM을 extit{이진 질문 답변} 및 extit{객관식 질문 답변} 방식으로 평가하고, extit{반사실적 정확도(CF-Acc)}, extit{상식 정확도(CS-Acc)}, extit{반사실적 정확도 감소(CFAD)}, extit{상식 붕괴율(CCR)}, 그리고 extit{상대적 사전 의존도(RPD)}와 같은 지표를 보고합니다. 결과는 강력한 모델조차도 시각적 증거와 상식 간의 충돌 상황에서 사전 지식에 의해 영향을 받는 경향이 있음을 보여줍니다. CDH-벤치는 시각적 증거와 상식 간의 충돌 상황에서 시각적 충실도를 진단하는 데 유용한 도구입니다.

Original Abstract

Vision-language models (VLMs) achieve strong performance on many benchmarks, yet a basic reliability question remains underexplored: when visual evidence conflicts with commonsense, do models follow what is shown or what commonsense suggests? A characteristic failure in this setting is that the model overrides visual evidence and outputs the commonsense alternative. We term this phenomenon \textbf{commonsense-driven hallucination} (CDH). To evaluate it, we introduce \textbf{CDH-Bench}, a benchmark designed to create explicit \textbf{visual evidence--commonsense conflicts}. CDH-Bench covers three dimensions: \textit{counting anomalies}, \textit{relational anomalies}, and \textit{attribute anomalies}. We evaluate frontier VLMs under \textit{binary Question Answering (QA)} and \textit{multiple-choice QA}, and report metrics including \textit{Counterfactual Accuracy} (CF-Acc), \textit{Commonsense Accuracy} (CS-Acc), \textit{Counterfactual Accuracy Drop} (CFAD), \textit{Commonsense Collapse Rate} (CCR), and \textit{Relative Prior Dependency} (RPD). Results show that even strong models remain vulnerable to prior-driven normalization under visual evidence--commonsense conflict. CDH-Bench provides a controlled diagnostic of visual fidelity under visual evidence--commonsense conflict.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!