VERHallu: 비디오 대규모 언어 모델에서 발생하는 이벤트 관계 환각 현상 평가 및 완화
VERHallu: Evaluating and Mitigating Event Relation Hallucination in Video Large Language Models
비디오 대규모 언어 모델(VideoLLM)은 다양한 유형의 환각 현상을 보입니다. 기존 연구는 주로 비디오 내 이벤트, 객체, 장면의 존재에 대한 환각에 초점을 맞추었지만, 이벤트 관계 환각은 상대적으로 간과되었습니다. 본 논문에서는 비디오 이벤트 관계 환각 현상을 평가하기 위한 새로운 벤치마크인 VERHallu를 소개합니다. 이 벤치마크는 원인-결과, 시간, 하위 이벤트 관계 등 세 가지 유형의 관계를 다루며, 관계 분류, 질문 답변, 반사실적 질문 답변이라는 세 가지 유형의 작업을 통해 이벤트 관계 환각 현상을 종합적으로 평가합니다. 또한, 일반적인 사전 훈련 분포에서 벗어난 비정상적인 비디오 시나리오를 포함하며, 각 샘플에는 시각-언어 및 순수 언어 편향을 모두 고려한 사람이 직접 작성한 후보 답변이 함께 제공됩니다. 분석 결과, 현재 최첨단 VideoLLM은 밀집된 이벤트 관계 추론에 어려움을 겪으며, 종종 프레임 수준의 단서 활용 부족으로 인해 사전 지식에 의존하는 경향이 있습니다. 이러한 모델은 주요 이벤트에 대한 강력한 연결성을 보여주지만, 종종 주변의 하위 이벤트를 간과하여 이벤트 관계에 대한 불완전하고 부정확한 이해를 초래합니다. 이러한 문제를 해결하기 위해, 프레임 수준의 어텐션을 중간 레이어 내에서 재분배하여 다중 이벤트 이해를 향상시키는 Key-Frame Propagating (KFP) 전략을 제안합니다. 실험 결과, KFP 전략은 추론 속도에 영향을 주지 않으면서 이벤트 관계 환각 현상을 효과적으로 완화할 수 있음을 확인했습니다.
Video Large Language Models (VideoLLMs) exhibit various types of hallucinations. Existing research has primarily focused on hallucinations involving the presence of events, objects, and scenes in videos, while largely neglecting event relation hallucination. In this paper, we introduce a novel benchmark for evaluating the Video Event Relation Hallucination, named VERHallu. This benchmark focuses on causal, temporal, and subevent relations between events, encompassing three types of tasks: relation classification, question answering, and counterfactual question answering, for a comprehensive evaluation of event relation hallucination. Additionally, it features counterintuitive video scenarios that deviate from typical pretraining distributions, with each sample accompanied by human-annotated candidates covering both vision-language and pure language biases. Our analysis reveals that current state-of-the-art VideoLLMs struggle with dense-event relation reasoning, often relying on prior knowledge due to insufficient use of frame-level cues. Although these models demonstrate strong grounding capabilities for key events, they often overlook the surrounding subevents, leading to an incomplete and inaccurate understanding of event relations. To tackle this, we propose a Key-Frame Propagating (KFP) strategy, which reallocates frame-level attention within intermediate layers to enhance multi-event understanding. Experiments show it effectively mitigates the event relation hallucination without affecting inference speed.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.