2604.02860v1 Apr 03, 2026 cs.CV

패러다임 전환: 비디오 내 시간적 문장 연관화를 위한 완전한 엔드-투-엔드 학습

A Paradigm Shift: Fully End-to-End Training for Temporal Sentence Grounding in Videos

Allen He
Allen He
Citations: 12
h-index: 2
Kun Liu
Kun Liu
Citations: 7
h-index: 1
Xinchen Liu
Xinchen Liu
Citations: 2,987
h-index: 18
Wu Liu
Wu Liu
Citations: 19
h-index: 2
Qi Li
Qi Li
Citations: 55
h-index: 4

비디오 내 시간적 문장 연관화(TSGV)는 비정형 비디오에서 문장 쿼리에 의미적으로 대응하는 시간적 구간을 찾아내는 것을 목표로 합니다. 현재 대부분의 방법은 오프라인 특징 추출을 위해 사전 학습된 쿼리-독립적인 시각 인코더를 사용하며, 비디오 모델의 핵심 부분은 고정되어 TSGV에 최적화되지 않습니다. 이는 시각 분류를 위해 학습된 비디오 모델을 TSGV에 사용할 때 발생하는 작업 불일치 문제를 야기합니다. 이러한 간극을 해소하기 위해, 우리는 비디오 모델의 핵심 부분과 위치 추론 모듈을 동시에 최적화하는 완전한 엔드-투-엔드 학습 패러다임을 제안합니다. 먼저, 다양한 모델 크기에서 엔드-투-엔드 학습이 기존의 고정된 모델보다 효과적인지 경험적으로 검증합니다. 또한, 문장 특징을 활용하여 비디오 모델의 핵심 부분 파라미터를 적응적으로 학습시키는 Sentence Conditioned Adapter (SCADA)를 소개합니다. SCADA는 더 깊은 네트워크 모델을 활용하면서도 메모리 사용량을 줄이고, 언어 임베딩을 정밀하게 통합하여 시각적 표현을 향상시킵니다. 두 개의 벤치마크 데이터셋에 대한 실험 결과, 제안하는 방법이 최첨단 기술보다 우수한 성능을 보이는 것을 확인했습니다. 코드와 모델은 공개될 예정입니다.

Original Abstract

Temporal sentence grounding in videos (TSGV) aims to localize a temporal segment that semantically corresponds to a sentence query from an untrimmed video. Most current methods adopt pre-trained query-agnostic visual encoders for offline feature extraction, and the video backbones are frozen and not optimized for TSGV. This leads to a task discrepancy issue for the video backbone trained for visual classification, but utilized for TSGV. To bridge this gap, we propose a fully end-to-end paradigm that jointly optimizes the video backbone and localization head. We first conduct an empirical study validating the effectiveness of end-to-end learning over frozen baselines across different model scales. Furthermore, we introduce a Sentence Conditioned Adapter (SCADA), which leverages sentence features to train a small portion of video backbone parameters adaptively. SCADA facilitates the deployment of deeper network backbones with reduced memory and significantly enhances visual representation by modulating feature maps through precise integration of linguistic embeddings. Experiments on two benchmarks show that our method outperforms state-of-the-art approaches. The code and models will be released.

0 Citations
0 Influential
9 Altmetric
45.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!