2601.04778v1 Jan 08, 2026 cs.CV

CounterVid: 비디오-언어 모델의 동작 및 시간적 환각 완화를 위한 반사실적 비디오 생성

CounterVid: Counterfactual Video Generation for Mitigating Action and Temporal Hallucinations in Video-Language Models

Tobia Poppi
Tobia Poppi
Citations: 31
h-index: 3
Burak Uzkent
Burak Uzkent
Citations: 1,724
h-index: 22
Amanmeet Garg
Amanmeet Garg
Citations: 831
h-index: 13
Lucas Porto
Lucas Porto
Citations: 5
h-index: 1
Garin Kessler
Garin Kessler
Citations: 8
h-index: 2
Yezhou Yang
Yezhou Yang
Citations: 16
h-index: 3
Marcella Cornia
Marcella Cornia
Citations: 5,876
h-index: 32
L. Baraldi
L. Baraldi
Citations: 6,569
h-index: 36
Rita Cucchiara
Rita Cucchiara
Citations: 435
h-index: 12
Florian Schiffers
Florian Schiffers
Citations: 295
h-index: 11

비디오-언어 모델(VLMs)은 강력한 다중 모드 이해 능력을 보이지만, 특히 동작과 시간 순서에 대한 추론 시 환각 현상에 취약합니다. 기존의 완화 전략인 텍스트 필터링 또는 무작위 비디오 변환은 종종 근본적인 원인, 즉 세부적인 시각적 역학보다는 언어적 사전 지식에 대한 과도한 의존을 해결하지 못합니다. 우리는 장면 맥락을 유지하면서 동작 또는 시간 구조만 다른 비디오를 생성하는 확장 가능한 반사실적 비디오 생성 프레임워크를 제안합니다. 당사의 파이프라인은 동작 제안 및 편집 지침을 위한 다중 모드 LLM과 의미 있는 부정 샘플을 대규모로 생성하기 위한 확산 기반 이미지 및 비디오 모델을 결합합니다. 이 프레임워크를 사용하여 동작 인식 및 시간적 추론을 목표로 하는 약 26,000개의 선호도 쌍으로 구성된 합성 데이터 세트인 CounterVid를 구축했습니다. 또한, 텍스트 및 시각적 선호도를 함께 활용하는 통합된 직접 선호도 최적화(Direct Preference Optimization) 접근 방식인 MixDPO를 소개합니다. MixDPO를 사용하여 Qwen2.5-VL을 미세 조정하면 일관된 성능 향상을 얻을 수 있으며, 특히 시간 순서에 대한 개선이 두드러지며 표준 비디오 환각 벤치마크에 효과적으로 적용됩니다. 코드 및 모델은 공개적으로 제공될 예정입니다.

Original Abstract

Video-language models (VLMs) achieve strong multimodal understanding but remain prone to hallucinations, especially when reasoning about actions and temporal order. Existing mitigation strategies, such as textual filtering or random video perturbations, often fail to address the root cause: over-reliance on language priors rather than fine-grained visual dynamics. We propose a scalable framework for counterfactual video generation that synthesizes videos differing only in actions or temporal structure while preserving scene context. Our pipeline combines multimodal LLMs for action proposal and editing guidance with diffusion-based image and video models to generate semantic hard negatives at scale. Using this framework, we build CounterVid, a synthetic dataset of ~26k preference pairs targeting action recognition and temporal reasoning. We further introduce MixDPO, a unified Direct Preference Optimization approach that jointly leverages textual and visual preferences. Fine-tuning Qwen2.5-VL with MixDPO yields consistent improvements, notably in temporal ordering, and transfers effectively to standard video hallucination benchmarks. Code and models will be made publicly available.

5 Citations
0 Influential
18 Altmetric
95.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!