텍스트 가이드를 통한 약하게 감독되는 다중 모달 비디오 이상 감지 성능 향상
Enhancing Weakly Supervised Multimodal Video Anomaly Detection through Text Guidance
약하게 감독되는 다중 모달 비디오 이상 감지는 많은 관심을 받고 있지만, 텍스트 모달리티의 잠재력은 아직 충분히 활용되지 못하고 있습니다. 텍스트는 명시적인 의미 정보를 제공하여 이상 상황을 더욱 정확하게 파악하고 오탐을 줄일 수 있습니다. 그러나 일반적인 언어 모델이 이상 상황에 특화된 미묘한 특징을 포착하는 데 어려움이 있고, 관련 설명이 부족하기 때문에 효과적인 텍스트 특징을 추출하는 것이 어렵습니다. 또한, 다중 모달 융합은 종종 중복성과 불균형 문제를 겪습니다. 이러한 문제점을 해결하기 위해, 본 연구에서는 새로운 텍스트 가이드 프레임워크를 제안합니다. 먼저, 텍스트 특징 추출기를 미세 조정하기 위해 고품질의 이상 상황 텍스트 샘플을 생성하는, 컨텍스트 학습 기반의 다단계 텍스트 증강 메커니즘을 도입합니다. 둘째, 다중 모달 정보를 점진적으로 통합하여 중복성과 불균형을 완화하는, 다중 스케일 병목 Transformer 융합 모듈을 설계했습니다. UCF-Crime 및 XD-Violence 데이터셋에 대한 실험 결과, 최고 수준의 성능을 달성했습니다.
Weakly supervised multimodal video anomaly detection has gained significant attention, yet the potential of the text modality remains under-explored. Text provides explicit semantic information that can enhance anomaly characterization and reduce false alarms. However, extracting effective text features is challenging due to the inability of general-purpose language models to capture anomaly-specific nuances and the scarcity of relevant descriptions. Furthermore, multimodal fusion often suffers from redundancy and imbalance. To address these issues, we propose a novel text-guided framework. First, we introduce an in-context learning-based multi-stage text augmentation mechanism to generate high-quality anomaly text samples for fine-tuning the text feature extractor. Second, we design a multi-scale bottleneck Transformer fusion module that uses compressed bottleneck tokens to progressively integrate information across modalities, mitigating redundancy and imbalance. Experiments on UCF-Crime and XD-Violence demonstrate state-of-the-art performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.