텍스트가 시각을 가릴 때: 비전-언어 모델의 텍스트 오버레이 유발 환각 현상에 대한 벤치마킹 및 완화 연구
When Text Hijacks Vision: Benchmarking and Mitigating Text Overlay-Induced Hallucination in Vision Language Models
최근 비전-언어 모델(VLMs)의 발전은 시계열, 동작, 객체, 공간 이해 등 다양한 다중 모드 비디오 이해 벤치마크에서 상당한 성능 향상을 가져왔습니다. 그러나 본 연구에서는 간과되었지만 중요한 문제점, 즉 화면에 표시된 텍스트가 실제 시각적 장면과 상반될 때, 기존의 VLMs가 체계적으로 환각 현상을 일으키며, 실제 시각적 콘텐츠보다 오버레이된 텍스트의 의미를 우선시한다는 것을 밝혀냈습니다. 우리는 이러한 현상을 '텍스트 오버레이 유발 환각(TOIH)'이라고 정의합니다. 본 연구에서는 대규모로 인간 검증된 샘플을 포함하고, 특수하게 설계된 평가 지표를 갖춘 최초의 종합 벤치마크인 'VisualTextTrap'을 제안합니다. 특히, 널리 사용되는 공개 데이터 세트를 활용하여 VLMs를 활용한 텍스트 생성 파이프라인과 엄격한 수동 검증을 결합한 확장 가능한 하이브리드 파이프라인을 통해 VisualTextTrap을 구축했습니다. 벤치마크는 네 가지 차원 내의 88가지 세분화된 속성에 대해 6,057개의 샘플로 구성되어 있으며, 환각 강도는 오버레이된 텍스트와 실제 비디오 콘텐츠 간의 의미적 모순을 반영하는 5단계 규모(L1--L5)로 정량화됩니다. 또한, 우리는 이중 인코더 아키텍처를 활용하는 새로운 비전-텍스트 분리 프레임워크인 'Visual Text Hallucination Mitigation Mixture-of-Experts (VTHM-MoE)'를 제안합니다. 구체적으로, 시계열, 동작, 객체, 공간 추론에 특화된 네 가지 전문가 모듈을 먼저 사전 훈련하여 텍스트 의미와 실제 비디오 콘텐츠 간의 교차 모드 불일치를 식별하고 활용합니다. 우리는 동적 전문가 할당을 가능하게 하는 적응형 토큰 라우팅 전략을 개발하여 TOIH에 대한 강력한 저항성을 제공하면서 동시에 오염되지 않은 비디오에 대한 성능을 유지합니다. 'VisualTextTrap' 벤치마크에서 수행된 광범위한 실험은 VTHM-MoE의 효과성을 검증했으며, 다양한 비디오 질의 응답 작업에서 최첨단 모델보다 우수한 성능을 보였습니다.
Recent advances in Vision-Language Models (VLMs) have substantially enhanced their ability across multimodal video understanding benchmarks spanning temporal, action, object, and spatial understanding. However, we identify a critical yet overlooked issue: when embedded on-screen text contradicts the visual scene, existing VLMs systematically hallucinate, prioritizing overlay textual semantics over the actual visual content. We define this phenomenon as Text Overlay-Induced Hallucination (TOIH). In this work, we propose VisualTextTrap, the first comprehensive benchmark, including large-scale human-validated samples with specifically designed evaluation metrics. In particular, we construct VisualTextTrap from widely-used public datasets using a scalable hybrid pipeline of VLMs assisted text generation and rigorous manual verification. The benchmark features 6,057 samples annotated across 88 fine-grained attributes within four dimensions, with hallucination intensity quantified on a five-level scale (L1--L5) that reflects the semantic contradiction between overlay text and visual reality. Moreover, we propose Visual Text Hallucination Mitigation Mixture-of-Experts (VTHM-MoE), a novel Vision-Text Disentanglement framework that employs a dual-encoder architecture. Concretely, four dimension-specialized expert modules spanning Temporal, Action, Object, and Spatial reasoning are first pre-trained to identify and leverage cross-modal discrepancies between textual semantics and actual video content. We develop an Adaptive Token Routing Strategy to enable dynamic expert allocation, conferring robust resistance to TOIH while preserving performance on uncontaminated videos. Extensive experiments conducted on our VisualTextTrap benchmark verify the effectiveness of VTHM-MoE, outperforming state-of-the-art counterparts with diverse video question answering tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.