2603.05095v1 Mar 05, 2026 cs.CV

GEM-TFL: EM 가이드 기반 분해 및 시간적 정제를 통한 위조 영역 탐지: 약한 지도와 완전 지도 간의 간극 해소

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

Xiaodong Zhu
Xiaodong Zhu
Citations: 9
h-index: 2
Suting Wang
Suting Wang
Citations: 6
h-index: 1
Junqi Yang
Junqi Yang
Citations: 64
h-index: 5
Yuhong Yang
Yuhong Yang
Citations: 30
h-index: 4
Weiping Tu
Weiping Tu
Citations: 207
h-index: 9
Zhongyuan Wang
Zhongyuan Wang
Citations: 111
h-index: 5
Yuan Zheng
Yuan Zheng
Citations: 7
h-index: 1

시간적 위조 영역 탐지(TFL)는 비디오 또는 오디오 스트림 내에서 조작된 부분을 정확하게 식별하여 멀티미디어 법의학 및 보안 분야에서 해석 가능한 증거를 제공하는 것을 목표로 합니다. 대부분의 기존 TFL 방법은 완전 지도 방식으로 작동하며 프레임 단위의 상세한 레이블을 필요로 하지만, 약하게 지도된 TFL(WS-TFL)은 비디오 레벨의 이진 레이블만 사용하여 레이블링 비용을 줄입니다. 그러나 현재 WS-TFL 방식은 학습과 추론 목표의 불일치, 이진 레이블로부터의 제한적인 지도, 미분 불가능한 top-k 집계로 인한 기울기 차단, 그리고 제안(proposal) 간의 명시적인 관계 모델링 부재와 같은 문제점을 가지고 있습니다. 이러한 문제점을 해결하기 위해, 본 논문에서는 학습과 추론 간의 지도 격차를 효과적으로 해소하는 두 단계의 분류-회귀 프레임워크인 GEM-TFL(Graph-based EM-powered Temporal Forgery Localization)을 제안합니다. GEM-TFL은 다음과 같은 특징을 가집니다: (1) EM 기반 최적화 과정을 통해 이진 레이블을 다차원 잠재 속성으로 재구성하여 약한 지도를 강화하고, (2) 학습 없이 시간적 일관성을 개선하여 프레임 단위 예측의 부드러운 시간적 동기를 확보하며, (3) 제안 간의 시간적-의미적 관계를 모델링하여 전반적인 일관성을 갖는 신뢰도 추정을 위한 그래프 기반의 제안 개선 모듈을 설계합니다. 벤치마크 데이터 세트에 대한 광범위한 실험 결과, GEM-TFL은 더욱 정확하고 강력한 시간적 위조 영역 탐지 성능을 달성하며, 완전 지도 방식과의 성능 격차를 크게 줄이는 것을 확인했습니다.

Original Abstract

Temporal Forgery Localization (TFL) aims to precisely identify manipulated segments within videos or audio streams, providing interpretable evidence for multimedia forensics and security. While most existing TFL methods rely on dense frame-level labels in a fully supervised manner, Weakly Supervised TFL (WS-TFL) reduces labeling cost by learning only from binary video-level labels. However, current WS-TFL approaches suffer from mismatched training and inference objectives, limited supervision from binary labels, gradient blockage caused by non-differentiable top-k aggregation, and the absence of explicit modeling of inter-proposal relationships. To address these issues, we propose GEM-TFL (Graph-based EM-powered Temporal Forgery Localization), a two-phase classification-regression framework that effectively bridges the supervision gap between training and inference. Built upon this foundation, (1) we enhance weak supervision by reformulating binary labels into multi-dimensional latent attributes through an EM-based optimization process; (2) we introduce a training-free temporal consistency refinement that realigns frame-level predictions for smoother temporal dynamics; and (3) we design a graph-based proposal refinement module that models temporal-semantic relationships among proposals for globally consistent confidence estimation. Extensive experiments on benchmark datasets demonstrate that GEM-TFL achieves more accurate and robust temporal forgery localization, substantially narrowing the gap with fully supervised methods.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!