2603.14992v1 Mar 16, 2026 cs.AI

단편 동영상에서 가짜 뉴스 탐지를 위한 모달 간 일관성 분석

Exposing Cross-Modal Consistency for Fake News Detection in Short-Form Videos

Chenxu Yang
Chenxu Yang
Citations: 357
h-index: 7
Chong Tian
Chong Tian
Citations: 8
h-index: 2
Zheng Lin
Zheng Lin
Citations: 45
h-index: 4
Yu Wang
Yu Wang
Citations: 12
h-index: 1
J. Guan
J. Guan
Citations: 223
h-index: 7
Xiuying Chen
Xiuying Chen
Citations: 13
h-index: 3
Qirong Ho
Qirong Ho
Citations: 2
h-index: 1
Yuhan Liu
Yuhan Liu
Citations: 18
h-index: 2

단편 동영상 플랫폼은 뉴스 전달의 주요 채널이지만, 동시에 다양한 모달 정보(시각, 텍스트, 음성)가 결합된 가짜 정보가 유포되기 쉬운 환경이기도 합니다. 각 모달 정보는 개별적으로는 신뢰할 만해 보이지만, 모달 간의 관계는 미묘하게 일관성이 부족할 수 있습니다(예: 시각 정보와 텍스트 설명의 불일치). 본 연구에서는 중국어 데이터셋 FakeSV와 영어 데이터셋 FakeTT를 사용하여, 실제 동영상은 텍스트-시각 간 일관성이 높고 텍스트-음성 간 일관성은 중간 정도인 반면, 가짜 동영상은 그 반대의 패턴을 보인다는 것을 확인했습니다. 또한, 단일의 전역적 일관성 점수는 가짜 확률과 예측 오류가 부드럽게 변하는 해석 가능한 축을 형성합니다. 이러한 관찰을 바탕으로, 본 연구에서는 모달 간의 삼자간 일관성 신호를 다양한 수준에서 명시적으로 모델링하고 드러내는 탐지 모델인 MAGIC3(Modal-Adversarial Gated Interaction and Consistency-Centric Classifier)을 제안합니다. MAGIC3은 명시적인 쌍대 및 전역적 일관성 모델링과 함께, 교차 모달 어텐션으로부터 파생된 토큰 및 프레임 수준의 일관성 신호를 결합하고, 스타일 강건성을 확보하기 위해 다양한 스타일의 LLM을 활용하여 텍스트 표현을 생성하며, 불확실성을 고려한 분류기를 사용하여 선택적으로 VLM(Vision-Language Model)을 활용합니다. 사전 추출된 특징을 사용하여 MAGIC3은 FakeSV와 FakeTT 데이터셋에서 가장 강력한 비-VLM 기반 모델보다 우수한 성능을 보입니다. VLM 수준의 정확도를 달성하면서도, MAGIC3은 18~27배 더 높은 처리량과 93% 더 낮은 VRAM 사용량을 제공하여, 비용 대비 성능 측면에서 뛰어난 장점을 제공합니다.

Original Abstract

Short-form video platforms are major channels for news but also fertile ground for multimodal misinformation where each modality appears plausible alone yet cross-modal relationships are subtly inconsistent, like mismatched visuals and captions. On two benchmark datasets, FakeSV (Chinese) and FakeTT (English), we observe a clear asymmetry: real videos exhibit high text-visual but moderate text-audio consistency, while fake videos show the opposite pattern. Moreover, a single global consistency score forms an interpretable axis along which fake probability and prediction errors vary smoothly. Motivated by these observations, we present MAGIC3 (Modal-Adversarial Gated Interaction and Consistency-Centric Classifier), a detector that explicitly models and exposes cross-tri-modal consistency signals at multiple granularities. MAGIC3 combines explicit pairwise and global consistency modeling with token- and frame-level consistency signals derived from cross-modal attention, incorporates multi-style LLM rewrites to obtain style-robust text representations, and employs an uncertainty-aware classifier for selective VLM routing. Using pre-extracted features, MAGIC3 consistently outperforms the strongest non-VLM baselines on FakeSV and FakeTT. While matching VLM-level accuracy, the two-stage system achieves 18-27x higher throughput and 93% VRAM savings, offering a strong cost-performance tradeoff.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!