2601.23232v3 Jan 30, 2026 cs.CV

ShotFinder: 웹 검색을 활용한 상상력 기반의 개방형 비디오 샷 검색

ShotFinder: Imagination-Driven Open-Domain Video Shot Retrieval via Web Search

Zhenghao Zhang
Zhenghao Zhang
Citations: 3
h-index: 1
Tao Yu
Tao Yu
Citations: 0
h-index: 0
Yujia Yang
Yujia Yang
Citations: 0
h-index: 0
Jiabing Yang
Jiabing Yang
Citations: 117
h-index: 4
Hongzhu Yi
Hongzhu Yi
Citations: 14
h-index: 2
Minghui Zhang
Minghui Zhang
Citations: 4
h-index: 1
Hao Wang
Hao Wang
Citations: 15
h-index: 3
Shenghua Chai
Shenghua Chai
Citations: 0
h-index: 0
Junhao Gong
Junhao Gong
Citations: 2
h-index: 1
Yuxuan Zhou
Yuxuan Zhou
Citations: 22
h-index: 1
Haopeng Jin
Haopeng Jin
Citations: 0
h-index: 0
Xinming Wang
Xinming Wang
Citations: 0
h-index: 0
Yufei Xiong
Yufei Xiong
Citations: 7
h-index: 1
Liang Wang
Liang Wang
Citations: 81
h-index: 3
Jiaming Guo
Jiaming Guo
Citations: 14
h-index: 1
Xinlong Chen
Xinlong Chen
Citations: 103
h-index: 7
Shan-qi Zhang
Shan-qi Zhang
Citations: 10
h-index: 2
Cheng Zhong
Cheng Zhong
Citations: 46
h-index: 4
Xiao Ma
Xiao Ma
Citations: 0
h-index: 0
Zhang Zhang
Zhang Zhang
Citations: 580
h-index: 12
Yan Huang
Yan Huang
Citations: 348
h-index: 13

최근 몇 년 동안, 대규모 언어 모델(LLM)은 정보 검색 분야에서 빠르게 발전해 왔지만, 기존 연구는 주로 텍스트 또는 정적인 멀티모달 환경에 초점을 맞추었습니다. 더 풍부한 시간적 구조와 복잡한 의미를 포함하는 개방형 비디오 샷 검색은 여전히 체계적인 벤치마크와 분석이 부족합니다. 이러한 격차를 해소하기 위해, 우리는 키프레임을 기반으로 한 샷 설명을 통해 편집 요구 사항을 형식화하고, 시간 순서, 색상, 시각적 스타일, 오디오, 해상도와 같은 다섯 가지 유형의 제어 가능한 단일 요소 제약을 도입하는 벤치마크인 ShotFinder를 소개합니다. 우리는 YouTube에서 20개의 주제 범주에 걸쳐 1,210개의 고품질 샘플을 수집하고, 대규모 모델을 사용하여 생성하고 인간의 검증을 거쳤습니다. 이 벤치마크를 기반으로, 우리는 텍스트 기반의 세 단계 검색 및 위치 추적 파이프라인인 ShotFinder를 제안합니다. (1) 비디오 상상을 통한 쿼리 확장, (2) 검색 엔진을 사용한 후보 비디오 검색, (3) 설명 기반의 시간적 위치 추적입니다. 다양한 독점 및 오픈 소스 모델에 대한 실험 결과, 인간 수준의 성능과의 상당한 격차가 있음을 보여주며, 제약 조건 간의 불균형이 명확합니다. 시간적 위치 추적은 비교적 용이하지만, 색상 및 시각적 스타일은 여전히 주요 과제입니다. 이러한 결과는 개방형 비디오 샷 검색이 멀티모달 대규모 모델이 아직 극복해야 할 중요한 능력임을 보여줍니다.

Original Abstract

In recent years, large language models (LLMs) have made rapid progress in information retrieval, yet existing research has mainly focused on text or static multimodal settings. Open-domain video shot retrieval, which involves richer temporal structure and more complex semantics, still lacks systematic benchmarks and analysis. To fill this gap, we introduce ShotFinder, a benchmark that formalizes editing requirements as keyframe-oriented shot descriptions and introduces five types of controllable single-factor constraints: Temporal order, Color, Visual style, Audio, and Resolution. We curate 1,210 high-quality samples from YouTube across 20 thematic categories, using large models for generation with human verification. Based on the benchmark, we propose ShotFinder, a text-driven three-stage retrieval and localization pipeline: (1) query expansion via video imagination, (2) candidate video retrieval with a search engine, and (3) description-guided temporal localization. Experiments on multiple closed-source and open-source models reveal a significant gap to human performance, with clear imbalance across constraints: temporal localization is relatively tractable, while color and visual style remain major challenges. These results reveal that open-domain video shot retrieval is still a critical capability that multimodal large models have yet to overcome.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!