2602.08099v1 Feb 08, 2026 cs.CV

VidVec: 비디오-텍스트 검색을 위한 비디오 멀티모달 대규모 언어 모델 임베딩 활용

VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval

Issar Tzachor
Issar Tzachor
Citations: 55
h-index: 3
D. Samuel
D. Samuel
Citations: 387
h-index: 8
Rami Ben-Ari
Rami Ben-Ari
Citations: 79
h-index: 4

최근 연구에서는 생성형 멀티모달 대규모 언어 모델(MLLM)을 비전 작업의 임베딩 추출기로 활용하는 경우가 많으며, 일반적으로 이러한 모델은 범용적인 표현을 생성하기 위해 미세 조정됩니다. 그러나 이러한 모델의 성능은 비디오 데이터에 대해서는 여전히 비디오 기반 모델(VFM)에 비해 떨어지는 경향이 있습니다. 본 논문에서는 MLLM을 활용하여 비디오-텍스트 임베딩 및 검색 성능을 향상시키는 데 중점을 둡니다. 먼저, 체계적인 레이어별 분석을 통해 MLLM의 중간 레이어(사전 학습된 레이어)가 이미 상당한 수준의 작업 관련 정보를 포함하고 있음을 확인했습니다. 이러한 점을 활용하여, 중간 레이어 임베딩과 보정된 MLLM 헤드를 결합하면 어떠한 학습 없이도 강력한 제로샷 검색 성능을 얻을 수 있음을 보여줍니다. 이러한 결과를 바탕으로, 본 논문에서는 텍스트 기반의 경량 정렬 전략을 제안합니다. 이 전략은 밀집된 비디오 설명을 짧은 요약으로 변환하고, 시각적 감독 없이 작업 관련 비디오-텍스트 임베딩 학습을 가능하게 합니다. 주목할 만한 점은, 본 방법은 텍스트 데이터에 대한 미세 조정 외에는 어떠한 학습도 수행하지 않았음에도 불구하고, 기존 방법보다 훨씬 뛰어난 성능을 보이며, 일반적인 비디오 검색 벤치마크에서 최첨단 결과를 달성했습니다.

Original Abstract

Recent studies have adapted generative Multimodal Large Language Models (MLLMs) into embedding extractors for vision tasks, typically through fine-tuning to produce universal representations. However, their performance on video remains inferior to Video Foundation Models (VFMs). In this paper, we focus on leveraging MLLMs for video-text embedding and retrieval. We first conduct a systematic layer-wise analysis, showing that intermediate (pre-trained) MLLM layers already encode substantial task-relevant information. Leveraging this insight, we demonstrate that combining intermediate-layer embeddings with a calibrated MLLM head yields strong zero-shot retrieval performance without any training. Building on these findings, we introduce a lightweight text-based alignment strategy which maps dense video captions to short summaries and enables task-related video-text embedding learning without visual supervision. Remarkably, without any fine-tuning beyond text, our method outperforms current methods, often by a substantial margin, achieving state-of-the-art results across common video retrieval benchmarks.

1 Citations
0 Influential
4 Altmetric
21.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!