VideoHEDGE: 의미론적 클러스터링 및 시공간적 변조를 활용한 비디오-언어 모델의 엔트로피 기반 환각 탐지
VideoHEDGE: Entropy-Based Hallucination Detection for Video-VLMs via Semantic Clustering and Spatiotemporal Perturbations
비디오 기능을 갖춘 시각-언어 모델(Video-VLMs)에서 발생하는 환각 현상은 빈번하며, 높은 신뢰도를 보이는 경우가 많습니다. 기존의 불확실성 측정 방법은 종종 정확성과 일치하지 않습니다. 본 논문에서는 비디오 질의응답에서 환각 현상을 탐지하기 위한 모듈형 프레임워크인 VideoHEDGE를 소개합니다. VideoHEDGE는 이미지 기반의 엔트로피 기반 신뢰도 추정 방식을 시계열 구조의 입력 데이터로 확장합니다. VideoHEDGE는 주어진 비디오-질의 쌍에 대해, 원본 비디오 클립과 광도학적 및 시공간적으로 변조된 여러 가지 버전으로부터 기본 답변과 고온(high-temperature) 생성 결과를 얻습니다. 그런 다음, 자연어 추론(NLI) 기반 또는 임베딩 기반 방법을 사용하여 결과 텍스트 출력을 의미론적 가설로 클러스터링합니다. 클러스터 레벨의 확률 값을 통해 세 가지 신뢰도 점수(Semantic Entropy (SE), RadFlag, Vision-Amplified Semantic Entropy (VASE))를 얻습니다. LLM을 판별기로 사용하여 SoccerChat 벤치마크에서 VideoHEDGE를 평가하여 이진 환각 레이블을 얻었습니다. 세 가지 7B Video-VLMs(Qwen2-VL, Qwen2.5-VL, SoccerChat으로 미세 조정된 모델)에서 VASE는 특히 더 큰 변조 예산에서 가장 높은 ROC-AUC를 지속적으로 달성했습니다. 반면, SE와 RadFlag는 종종 우연의 수준에 가깝게 작동했습니다. 또한, 임베딩 기반 클러스터링이 NLI 기반 클러스터링과 유사한 탐지 성능을 훨씬 낮은 계산 비용으로 제공한다는 것을 보여주었습니다. 또한, 도메인 미세 조정은 환각 빈도를 줄이지만, 보정 측면에서는 미미한 개선만 가져옵니다. hedge-bench PyPI 라이브러리는 재현 가능하고 확장 가능한 벤치마킹을 지원하며, 전체 코드 및 실험 리소스는 https://github.com/Simula/HEDGE#videohedge 에서 확인할 수 있습니다.
Hallucinations in video-capable vision-language models (Video-VLMs) remain frequent and high-confidence, while existing uncertainty metrics often fail to align with correctness. We introduce VideoHEDGE, a modular framework for hallucination detection in video question answering that extends entropy-based reliability estimation from images to temporally structured inputs. Given a video-question pair, VideoHEDGE draws a baseline answer and multiple high-temperature generations from both clean clips and photometrically and spatiotemporally perturbed variants, then clusters the resulting textual outputs into semantic hypotheses using either Natural Language Inference (NLI)-based or embedding-based methods. Cluster-level probability masses yield three reliability scores: Semantic Entropy (SE), RadFlag, and Vision-Amplified Semantic Entropy (VASE). We evaluate VideoHEDGE on the SoccerChat benchmark using an LLM-as-a-judge to obtain binary hallucination labels. Across three 7B Video-VLMs (Qwen2-VL, Qwen2.5-VL, and a SoccerChat-finetuned model), VASE consistently achieves the highest ROC-AUC, especially at larger distortion budgets, while SE and RadFlag often operate near chance. We further show that embedding-based clustering matches NLI-based clustering in detection performance at substantially lower computational cost, and that domain fine-tuning reduces hallucination frequency but yields only modest improvements in calibration. The hedge-bench PyPI library enables reproducible and extensible benchmarking, with full code and experimental resources available at https://github.com/Simula/HEDGE#videohedge .
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.