PrismVAU: 프롬프트 기반 개선을 통한 다중 모드 비디오 이상 상황 이해 시스템
PrismVAU: Prompt-Refined Inference System for Multimodal Video Anomaly Understanding
비디오 이상 상황 이해(VAU)는 기존의 비디오 이상 탐지(VAD) 기술을 확장하여, 이상 현상을 단순히 탐지하는 것뿐만 아니라, 해당 현상의 맥락을 설명하고 추론하는 기능을 제공합니다. 기존의 VAU 접근 방식은 종종 미세 조정된 다중 모드 대규모 언어 모델(MLLM) 또는 비디오 캡셔닝과 같은 외부 모듈에 의존하는데, 이는 비용이 많이 드는 어노테이션, 복잡한 학습 파이프라인, 그리고 높은 추론 오버헤드를 발생시킵니다. 본 연구에서는 실시간 VAU를 위한 가볍고 효과적인 시스템인 PrismVAU를 소개합니다. PrismVAU는 단일의 사전 훈련된 MLLM을 사용하여 이상 점수 계산, 설명, 그리고 프롬프트 최적화를 수행합니다. PrismVAU는 두 가지 상호 보완적인 단계로 구성됩니다. (1) 텍스트 앵커와의 유사성을 기반으로 프레임 수준의 이상 점수를 계산하는 초기 이상 점수 모듈, 그리고 (2) 시스템 프롬프트와 사용자 프롬프트를 통해 이상 현상의 맥락을 파악하는 MLLM 기반 개선 모듈입니다. 텍스트 앵커와 프롬프트는 약하게 감독되는 자동 프롬프트 엔지니어링(APE) 프레임워크를 통해 최적화됩니다. 표준 VAD 벤치마크에 대한 광범위한 실험 결과, PrismVAU는 경쟁력 있는 탐지 성능과 해석 가능한 이상 현상 설명을 제공하며, 이는 명령어 튜닝, 프레임 수준 어노테이션, 외부 모듈 또는 밀집 처리 방식에 의존하지 않고 구현되어, 실제 응용 분야에 효율적이고 실용적인 솔루션을 제공합니다.
Video Anomaly Understanding (VAU) extends traditional Video Anomaly Detection (VAD) by not only localizing anomalies but also describing and reasoning about their context. Existing VAU approaches often rely on fine-tuned multimodal large language models (MLLMs) or external modules such as video captioners, which introduce costly annotations, complex training pipelines, and high inference overhead. In this work, we introduce PrismVAU, a lightweight yet effective system for real-time VAU that leverages a single off-the-shelf MLLM for anomaly scoring, explanation, and prompt optimization. PrismVAU operates in two complementary stages: (1) a coarse anomaly scoring module that computes frame-level anomaly scores via similarity to textual anchors, and (2) an MLLM-based refinement module that contextualizes anomalies through system and user prompts. Both textual anchors and prompts are optimized with a weakly supervised Automatic Prompt Engineering (APE) framework. Extensive experiments on standard VAD benchmarks demonstrate that PrismVAU delivers competitive detection performance and interpretable anomaly explanations -- without relying on instruction tuning, frame-level annotations, and external modules or dense processing -- making it an efficient and practical solution for real-world applications.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.