확대하여 분석, 논리적으로 판단: 베이지안 추론 기반의 집중형 VLM 추론을 통한 고속도로 감시 영상에서의 효율적인 원거리 이상 감지
Zoom In, Reason Out: Efficient Far-field Anomaly Detection in Expressway Surveillance Videos via Focused VLM Reasoning Guided by Bayesian Inference
고속도로 영상 이상 감지는 안전 관리에 필수적입니다. 그러나 다양한 장면에서 이상을 식별하는 것은 여전히 어렵고, 특히 미묘한 비정상적인 차량 움직임을 보이는 원거리 대상에 대한 감지가 더욱 어렵습니다. 비전-언어 모델(VLM)은 강력한 의미 추론 능력을 보여주지만, 전체 프레임을 처리하면 이러한 원거리 객체에 대한 주의 집중도가 낮아지고 계산 비용이 매우 높아집니다. 이러한 문제점을 해결하기 위해, 우리는 베이지안 추론에 의해 안내되는 VLM을 활용하는 비동기 협업 프레임워크인 VIBES를 제안합니다. 특히, 다양한 고속도로 환경에서의 일반화 성능 저하 문제를 해결하기 위해, 온라인 베이지안 추론 모듈을 도입했습니다. 이 모듈은 지속적으로 차량 궤적을 평가하여 정상적인 주행 행동의 확률적 경계를 동적으로 업데이트하며, 이를 비동기 트리거로 사용하여 공간 및 시간적으로 이상을 정확하게 위치시킵니다. VLM은 전체 비디오 스트림을 처리하는 대신, 트리거에 의해 지정된 특정 시각적 영역만 처리합니다. 이러한 표적 시각 입력은 주의 집중도를 높이고 정확한 의미 추론을 가능하게 합니다. 광범위한 실험 결과는 VIBES가 원거리 이상 감지 정확도를 향상시키고 계산 오버헤드를 줄이며, 다양한 고속도로 환경에서 높은 실시간 효율성과 설명 가능성을 달성함을 보여줍니다.
Expressway video anomaly detection is essential for safety management. However, identifying anomalies across diverse scenes remains challenging, particularly for far-field targets exhibiting subtle abnormal vehicle motions. While Vision-Language Models (VLMs) demonstrate strong semantic reasoning capabilities, processing global frames causes attention dilution for these far-field objects and incurs prohibitive computational costs. To address these issues, we propose VIBES, an asynchronous collaborative framework utilizing VLMs guided by Bayesian inference. Specifically, to overcome poor generalization across varying expressway environments, we introduce an online Bayesian inference module. This module continuously evaluates vehicle trajectories to dynamically update the probabilistic boundaries of normal driving behaviors, serving as an asynchronous trigger to precisely localize anomalies in space and time. Instead of processing the continuous video stream, the VLM processes only the localized visual regions indicated by the trigger. This targeted visual input prevents attention dilution and enables accurate semantic reasoning. Extensive evaluations demonstrate that VIBES improves detection accuracy for far-field anomalies and reduces computational overhead, achieving high real-time efficiency and explainability while demonstrating generalization across diverse expressway conditions.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.