ClipTBP: 경계 인식 학습 기반의 클립 쌍 기반 시간 경계 예측 모델 – 순간 검색을 위한 방법
ClipTBP: Clip-Pair based Temporal Boundary Prediction with Boundary-Aware Learning for Moment Retrieval
비디오 순간 검색은 주어진 텍스트 질의에 해당하는 비디오의 특정 구간을 검색하는 작업입니다. 최근 연구에서는 스니펫 수준의 시각-언어 유사성 학습과 트랜스포머 기반 시간 경계 회귀를 통해 다중 모달 정렬 성능을 향상시키기 위한 노력이 이루어졌습니다. 그러나 기존 모델은 질의에 부합하는 여러 답변 구간 간의 관계를 고려하지 않고 유사도를 계산하므로, 주변 컨텍스트의 시각적으로 유사한 구간에 쉽게 영향을 받습니다. 또한, 기존 모델은 스니펫 수준에서 유사도를 계산하고 단일 질의에 해당하는 여러 답변 구간 간의 관계를 무시하므로, 질의와 관련 없는 구간을 제대로 제외하지 못하는 문제가 있습니다. 이러한 문제점을 해결하기 위해, 우리는 경계 인식 학습 기반의 클립 쌍 기반 시간 경계 예측 프레임워크인 ClipTBP를 제안합니다. ClipTBP는 답변 구간 간의 의미적 관계를 명시적으로 학습하기 위한 클립 수준의 정렬 손실을 도입합니다. 또한, ClipTBP는 주 경계 손실과 보조 경계 손실을 모두 적용하여 정확한 시간 경계를 예측합니다. ClipTBP는 다양한 기존 모델에 적용했을 때 성능 향상을 보이며, 애매한 질의 시나리오에서도 더욱 안정적인 경계 예측 성능을 보여줍니다.
Video moment retrieval is the task of retrieving specific segments of a video corresponding to a given text query. Recent studies have been conducted to improve multimodal alignment performance through visual-linguistic similarity learning at the snippet-level and transformer-based temporal boundary regression. However, existing models do not calculate similarity by considering the relationships between multiple answer segments that match the query. Therefore, existing models are easily influenced by visually similar segments in the surrounding context. Existing models calculate similarity at the snippet-level and ignore the relationships between multiple answer segments corresponding to a single query. Therefore, they struggle to exclude segments irrelevant to the query. To address this issues, we propose ClipTBP, a clip-pair temporal boundary prediction framework based on boundary-aware learning. ClipTBP introduces a clip-level alignment loss for explicitly learning the semantic relationship between answer segments. ClipTBP also predicts accurate temporal boundaries by applying both main boundary loss and auxiliary boundary loss. ClipTBP consistently improves performance when applied to various existing models and demonstrates more robust boundary prediction performance even in ambiguous query scenarios.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.