DeformTrace: 릴레이 토큰을 활용한 변형 가능 상태 공간 모델을 이용한 시간적 위조 탐지
DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization
시간적 위조 탐지(TFL)는 비디오 및 오디오에서 조작된 구간을 정확하게 식별하여 보안 및 법의학 분야에 강력한 해석 가능성을 제공하는 것을 목표로 합니다. 최근의 상태 공간 모델(SSM)은 정확한 시간적 추론에 유망한 결과를 보여주었지만, 모호한 경계, 희소한 위조, 제한적인 장거리 모델링 등의 문제로 인해 TFL에 적용되기 어렵습니다. 본 논문에서는 이러한 문제점을 해결하기 위해 변형 가능한 동역학과 릴레이 메커니즘을 SSM에 통합한 DeformTrace를 제안합니다. 구체적으로, 변형 가능한 자기-SSM(DS-SSM)은 SSM에 동적 수용 영역을 도입하여 정확한 시간적 위치 파악을 가능하게 합니다. 또한, 시간적 추론 능력을 더욱 향상시키고 장거리 정보 손실을 완화하기 위해 DS-SSM에 릴레이 토큰 메커니즘을 통합했습니다. 더불어, 변형 가능한 크로스-SSM(DC-SSM)은 전역 상태 공간을 쿼리에 특화된 부분 공간으로 분할하여 위조되지 않은 정보의 누적을 줄이고 희소한 위조에 대한 민감도를 높입니다. 이러한 구성 요소들은 트랜스포머의 전역 모델링 능력과 SSM의 효율성을 결합한 하이브리드 아키텍처에 통합됩니다. 광범위한 실험 결과, DeformTrace는 더 적은 파라미터, 더 빠른 추론 속도, 그리고 더 강력한 견고성을 갖춘 최첨단 성능을 달성함을 보여줍니다.
Temporal Forgery Localization (TFL) aims to precisely identify manipulated segments in video and audio, offering strong interpretability for security and forensics. While recent State Space Models (SSMs) show promise in precise temporal reasoning, their use in TFL is hindered by ambiguous boundaries, sparse forgeries, and limited long-range modeling. We propose DeformTrace, which enhances SSMs with deformable dynamics and relay mechanisms to address these challenges. Specifically, Deformable Self-SSM (DS-SSM) introduces dynamic receptive fields into SSMs for precise temporal localization. To further enhance its capacity for temporal reasoning and mitigate long-range decay, a Relay Token Mechanism is integrated into DS-SSM. Besides, Deformable Cross-SSM (DC-SSM) partitions the global state space into query-specific subspaces, reducing non-forgery information accumulation and boosting sensitivity to sparse forgeries. These components are integrated into a hybrid architecture that combines the global modeling of Transformers with the efficiency of SSMs. Extensive experiments show that DeformTrace achieves state-of-the-art performance with fewer parameters, faster inference, and stronger robustness.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.