DeepSVU: 통합 물리적 세계 정규화 MoE를 통한 심층적인 보안 지향 비디오 이해를 향하여
DeepSVU: Towards In-depth Security-oriented Video Understanding via Unified Physical-world Regularized MoE
문헌에 따르면, 보안 지향 비디오 이해(Security-oriented Video Understanding, SVU)에 대한 기존 연구는 주로 비디오 내 위협(예: 총격, 강도)을 탐지하고 위치를 파악하는 데 집중해 왔으며, 위협의 원인을 생성하고 평가하는 효과적인 기능은 대체로 부족했습니다. 이러한 한계에서 동기를 얻어 본 논문은 새로운 채팅 패러다임의 SVU 작업인 심층 보안 지향 비디오 이해(In-depth Security-oriented Video Understanding, DeepSVU)를 도입합니다. 이는 위협을 식별하고 위치를 파악할 뿐만 아니라 위협 구간의 원인을 규명하고 평가하는 것을 목표로 합니다. 나아가 본 논문은 제안하는 작업에서 두 가지 주요 과제를 제시합니다: 1) DeepSVU 작업을 향상시키기 위해 거친 수준에서 미세한 수준(coarse-to-fine)에 이르는 물리적 세계 정보(예: 인간의 행동, 객체 상호작용 및 배경 문맥)를 효과적으로 모델링하는 방법, 2) 이러한 요소들을 적응적으로 절충(trade-off)하는 방법입니다. 이러한 과제를 해결하기 위해 본 논문은 새로운 통합 물리적 세계 정규화 MoE(Unified Physical-world Regularized MoE, UPRM) 접근법을 제안합니다. 구체적으로 UPRM은 위의 두 가지 과제를 각각 해결하기 위해 통합 물리적 세계 강화 MoE(Unified Physical-world Enhanced MoE, UPE) 블록과 물리적 세계 절충 정규화기(Physical-world Trade-off Regularizer, PTR)라는 두 가지 핵심 요소를 포함합니다. 우리의 DeepSVU 지시 데이터셋(즉, UCF-C 지시문 및 CUVA 지시문)에 대해 수행된 광범위한 실험은 UPRM이 비 VLM 접근법은 물론 여러 고급 Video-LLM의 성능을 능가함을 보여줍니다. 이러한 결과는 DeepSVU 작업에서 거친 수준에서 미세한 수준에 이르는 물리적 세계 정보의 중요성을 뒷받침하며, 이러한 정보를 포착하는 데 있어 제안된 UPRM의 효과를 입증합니다.
In the literature, prior research on Security-oriented Video Understanding (SVU) has predominantly focused on detecting and localize the threats (e.g., shootings, robberies) in videos, while largely lacking the effective capability to generate and evaluate the threat causes. Motivated by these gaps, this paper introduces a new chat paradigm SVU task, i.e., In-depth Security-oriented Video Understanding (DeepSVU), which aims to not only identify and locate the threats but also attribute and evaluate the causes threatening segments. Furthermore, this paper reveals two key challenges in the proposed task: 1) how to effectively model the coarse-to-fine physical-world information (e.g., human behavior, object interactions and background context) to boost the DeepSVU task; and 2) how to adaptively trade off these factors. To tackle these challenges, this paper proposes a new Unified Physical-world Regularized MoE (UPRM) approach. Specifically, UPRM incorporates two key components: the Unified Physical-world Enhanced MoE (UPE) Block and the Physical-world Trade-off Regularizer (PTR), to address the above two challenges, respectively. Extensive experiments conduct on our DeepSVU instructions datasets (i.e., UCF-C instructions and CUVA instructions) demonstrate that UPRM outperforms several advanced Video-LLMs as well as non-VLM approaches. Such information.These justify the importance of the coarse-to-fine physical-world information in the DeepSVU task and demonstrate the effectiveness of our UPRM in capturing such information.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.