단편 동영상에서 가짜 뉴스 탐지를 위한 모달 간 일관성 분석
Exposing Cross-Modal Consistency for Fake News Detection in Short-Form Videos
단편 동영상 플랫폼은 뉴스 전달의 주요 채널이지만, 동시에 다양한 모달 정보(시각, 텍스트, 음성)가 결합된 가짜 정보가 유포되기 쉬운 환경이기도 합니다. 각 모달 정보는 개별적으로는 신뢰할 만해 보이지만, 모달 간의 관계는 미묘하게 일관성이 부족할 수 있습니다(예: 시각 정보와 텍스트 설명의 불일치). 본 연구에서는 중국어 데이터셋 FakeSV와 영어 데이터셋 FakeTT를 사용하여, 실제 동영상은 텍스트-시각 간 일관성이 높고 텍스트-음성 간 일관성은 중간 정도인 반면, 가짜 동영상은 그 반대의 패턴을 보인다는 것을 확인했습니다. 또한, 단일의 전역적 일관성 점수는 가짜 확률과 예측 오류가 부드럽게 변하는 해석 가능한 축을 형성합니다. 이러한 관찰을 바탕으로, 본 연구에서는 모달 간의 삼자간 일관성 신호를 다양한 수준에서 명시적으로 모델링하고 드러내는 탐지 모델인 MAGIC3(Modal-Adversarial Gated Interaction and Consistency-Centric Classifier)을 제안합니다. MAGIC3은 명시적인 쌍대 및 전역적 일관성 모델링과 함께, 교차 모달 어텐션으로부터 파생된 토큰 및 프레임 수준의 일관성 신호를 결합하고, 스타일 강건성을 확보하기 위해 다양한 스타일의 LLM을 활용하여 텍스트 표현을 생성하며, 불확실성을 고려한 분류기를 사용하여 선택적으로 VLM(Vision-Language Model)을 활용합니다. 사전 추출된 특징을 사용하여 MAGIC3은 FakeSV와 FakeTT 데이터셋에서 가장 강력한 비-VLM 기반 모델보다 우수한 성능을 보입니다. VLM 수준의 정확도를 달성하면서도, MAGIC3은 18~27배 더 높은 처리량과 93% 더 낮은 VRAM 사용량을 제공하여, 비용 대비 성능 측면에서 뛰어난 장점을 제공합니다.
Short-form video platforms are major channels for news but also fertile ground for multimodal misinformation where each modality appears plausible alone yet cross-modal relationships are subtly inconsistent, like mismatched visuals and captions. On two benchmark datasets, FakeSV (Chinese) and FakeTT (English), we observe a clear asymmetry: real videos exhibit high text-visual but moderate text-audio consistency, while fake videos show the opposite pattern. Moreover, a single global consistency score forms an interpretable axis along which fake probability and prediction errors vary smoothly. Motivated by these observations, we present MAGIC3 (Modal-Adversarial Gated Interaction and Consistency-Centric Classifier), a detector that explicitly models and exposes cross-tri-modal consistency signals at multiple granularities. MAGIC3 combines explicit pairwise and global consistency modeling with token- and frame-level consistency signals derived from cross-modal attention, incorporates multi-style LLM rewrites to obtain style-robust text representations, and employs an uncertainty-aware classifier for selective VLM routing. Using pre-extracted features, MAGIC3 consistently outperforms the strongest non-VLM baselines on FakeSV and FakeTT. While matching VLM-level accuracy, the two-stage system achieves 18-27x higher throughput and 93% VRAM savings, offering a strong cost-performance tradeoff.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.