2602.22963v1 Feb 26, 2026 cs.AI

FactGuard: 강화 학습을 이용한 능동적인 비디오 오정보 탐지

FactGuard: Agentic Video Misinformation Detection via Reinforcement Learning

Yilong Xu
Yilong Xu
Citations: 79
h-index: 5
Hao Jiang
Hao Jiang
Citations: 85
h-index: 5
Qiang Sheng
Qiang Sheng
Institute of Computing Technology, Chinese Academy of Sciences
Citations: 1,531
h-index: 19
Baolong Bi
Baolong Bi
Citations: 132
h-index: 4
Yang Li
Yang Li
Citations: 227
h-index: 3
Zehao Li
Zehao Li
Citations: 457
h-index: 4
Hongwei Yu
Hongwei Yu
Citations: 130
h-index: 7
Zhenlong Yuan
Zhenlong Yuan
Citations: 121
h-index: 7
Yujun Cai
Yujun Cai
Citations: 39
h-index: 4
Zhaoqi Wang
Zhaoqi Wang
Citations: 14
h-index: 2

다중 모드 대규모 언어 모델(MLLM)은 통합된 다중 모드 추론을 통해 비디오 오정보 탐지 분야에 크게 기여했지만, 이러한 모델들은 종종 고정된 깊이의 추론에 의존하며, 특히 중요한 증거가 부족하거나 단편적이며 외부 검증이 필요한 경우, 내부적으로 생성된 가정에 지나치게 의존하는 경향이 있습니다. 이러한 한계를 극복하기 위해, 저희는 MLLM을 기반으로 검증을 반복적인 추론 과정으로 구성하는 능동적인 프레임워크인 FactGuard를 제안합니다. FactGuard는 작업의 모호성을 명시적으로 평가하고, 중요한 증거를 획득하기 위해 필요한 경우 외부 도구를 선택적으로 활용하여 추론 경로를 점진적으로 개선합니다. 이러한 능력을 더욱 강화하기 위해, 저희는 도구 사용을 최적화하고 위험에 민감한 의사 결정을 조정하기 위해, 도메인 특화된 능동적 지도 학습과 의사 결정 인지 강화 학습을 결합한 2단계 학습 전략을 도입했습니다. FakeSV, FakeTT, FakeVV 데이터셋에 대한 광범위한 실험 결과, FactGuard는 최첨단 성능을 보여주며, 뛰어난 견고성과 일반화 능력을 입증했습니다.

Original Abstract

Multimodal large language models (MLLMs) have substantially advanced video misinformation detection through unified multimodal reasoning, but they often rely on fixed-depth inference and place excessive trust in internally generated assumptions, particularly in scenarios where critical evidence is sparse, fragmented, or requires external verification. To address these limitations, we propose FactGuard, an agentic framework for video misinformation detection that formulates verification as an iterative reasoning process built upon MLLMs. FactGuard explicitly assesses task ambiguity and selectively invokes external tools to acquire critical evidence, enabling progressive refinement of reasoning trajectories. To further strengthen this capability, we introduce a two-stage training strategy that combines domain-specific agentic supervised fine-tuning with decision-aware reinforcement learning to optimize tool usage and calibrate risk-sensitive decision making. Extensive experiments on FakeSV, FakeTT, and FakeVV demonstrate FactGuard's state-of-the-art performance and validate its excellent robustness and generalization capacity.

0 Citations
0 Influential
9.5 Altmetric
47.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!