부분적으로 관련 있는 비디오 검색을 위한 지식 기반 이중 컨텍스트 인식 네트워크
Knowledge-Refined Dual Context-Aware Network for Partially Relevant Video Retrieval
정형화되지 않은 비디오에서 부분적으로 관련 있는 구간을 검색하는 것은 여전히 어려운 과제이며, 이는 텍스트와 비디오 구간 간의 정보 밀도 불일치, 그리고 의미적 초점과 사건 연관성을 간과하는 제한적인 어텐션 메커니즘이라는 두 가지 주요 문제 때문입니다. 본 논문에서는 이러한 문제를 텍스트 및 시각적 관점에서 모두 해결하기 위해 지식 기반 이중 컨텍스트 인식 네트워크인 KDC-Net을 제안합니다. 텍스트 측면에서, 계층적 의미 집계 모듈은 다양한 크기의 구문 단서를 캡처하고 적응적으로 융합하여 쿼리 의미를 풍부하게 합니다. 비디오 측면에서, 동적 시간 어텐션 메커니즘은 상대적 위치 인코딩과 적응적 시간 창을 활용하여 지역적 시간적 일관성을 갖춘 주요 이벤트에 주목합니다. 또한, 시간 연속성을 고려한 개선된 동적 CLIP 기반 증류 전략은 구간 단위의 객관성 정렬 지식 전달을 보장합니다. PRVR 벤치마크에 대한 실험 결과, KDC-Net은 특히 짧은 구간-비디오 비율에서 최첨단 방법보다 꾸준히 우수한 성능을 보였습니다.
Retrieving partially relevant segments from untrimmed videos remains difficult due to two persistent challenges: the mismatch in information density between text and video segments, and limited attention mechanisms that overlook semantic focus and event correlations. We present KDC-Net, a Knowledge-Refined Dual Context-Aware Network that tackles these issues from both textual and visual perspectives. On the text side, a Hierarchical Semantic Aggregation module captures and adaptively fuses multi-scale phrase cues to enrich query semantics. On the video side, a Dynamic Temporal Attention mechanism employs relative positional encoding and adaptive temporal windows to highlight key events with local temporal coherence. Additionally, a dynamic CLIP-based distillation strategy, enhanced with temporal-continuity-aware refinement, ensures segment-aware and objective-aligned knowledge transfer. Experiments on PRVR benchmarks show that KDC-Net consistently outperforms state-of-the-art methods, especially under low moment-to-video ratios.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.