2603.11481v1 Mar 12, 2026 cs.CV

INFACT: 비디오-LLM 모델의 인공적 충실도 및 사실성 환각 현상을 진단하는 벤치마크

INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs

Yuecong Min
Yuecong Min
Citations: 13
h-index: 1
Shiguang Shan
Shiguang Shan
Citations: 262
h-index: 9
Xilin Chen
Xilin Chen
Citations: 354
h-index: 11
Junqi Yang
Junqi Yang
Citations: 4
h-index: 1
Jie Zhang
Jie Zhang
Citations: 0
h-index: 0

비디오 대규모 언어 모델(Video-LLM)은 빠른 발전을 이루었지만, 여전히 환각 현상으로 인해 신뢰성이 떨어지는 문제가 있습니다. 환각 현상은 비디오 증거와 모순되거나 검증 가능한 세계 지식과 다른 내용을 출력하는 현상을 의미합니다. 기존 벤치마크는 사실성 환각 현상에 대한 제한적인 평가를 제공하며, 주로 깨끗한 환경에서 모델을 평가합니다. 본 연구에서는 9,800개의 질의응답(QA) 인스턴스로 구성된 진단 벤치마크인 extsc{INFACT}를 소개합니다. extsc{INFACT}는 실제 및 합성 비디오를 사용하여 충실도 및 사실성에 대한 세분화된 분류 체계를 포함합니다. extsc{INFACT}는 기본(깨끗한 환경), 시각적 왜곡, 증거 변조, 그리고 시간 순서에 민감한 항목에 대한 시간적 개입의 네 가지 모드에서 모델을 평가합니다. 유도된 환경에서의 신뢰성은 Resist Rate (RR) 및 Temporal Sensitivity Score (TSS)를 사용하여 정량화합니다. 14개의 대표적인 Video-LLM 모델에 대한 실험 결과, 기본 모드에서의 높은 정확도가 인위적인 환경에서도 높은 신뢰성을 보장하지 않는다는 것을 확인했습니다. 특히, 증거 변조는 안정성을 저하시키고, 시간적 개입은 가장 큰 성능 저하를 야기합니다. 주목할 점은, 많은 오픈 소스 모델들이 사실성에 대한 TSS 값이 거의 0에 가깝다는 것을 보여주며, 이는 시간 순서에 민감한 질문에 대한 현저한 시간적 관성을 나타냅니다.

Original Abstract

Despite rapid progress, Video Large Language Models (Video-LLMs) remain unreliable due to hallucinations, which are outputs that contradict either video evidence (faithfulness) or verifiable world knowledge (factuality). Existing benchmarks provide limited coverage of factuality hallucinations and predominantly evaluate models only in clean settings. We introduce \textsc{INFACT}, a diagnostic benchmark comprising 9{,}800 QA instances with fine-grained taxonomies for faithfulness and factuality, spanning real and synthetic videos. \textsc{INFACT} evaluates models in four modes: Base (clean), Visual Degradation, Evidence Corruption, and Temporal Intervention for order-sensitive items. Reliability under induced modes is quantified using Resist Rate (RR) and Temporal Sensitivity Score (TSS). Experiments on 14 representative Video-LLMs reveal that higher Base-mode accuracy does not reliably translate to higher reliability in the induced modes, with evidence corruption reducing stability and temporal intervention yielding the largest degradation. Notably, many open-source baselines exhibit near-zero TSS on factuality, indicating pronounced temporal inertia on order-sensitive questions.

4 Citations
0 Influential
5.5 Altmetric
31.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!