ShotFinder: 웹 검색을 활용한 상상력 기반의 개방형 비디오 샷 검색
ShotFinder: Imagination-Driven Open-Domain Video Shot Retrieval via Web Search
최근 몇 년 동안, 대규모 언어 모델(LLM)은 정보 검색 분야에서 빠르게 발전해 왔지만, 기존 연구는 주로 텍스트 또는 정적인 멀티모달 환경에 초점을 맞추었습니다. 더 풍부한 시간적 구조와 복잡한 의미를 포함하는 개방형 비디오 샷 검색은 여전히 체계적인 벤치마크와 분석이 부족합니다. 이러한 격차를 해소하기 위해, 우리는 키프레임을 기반으로 한 샷 설명을 통해 편집 요구 사항을 형식화하고, 시간 순서, 색상, 시각적 스타일, 오디오, 해상도와 같은 다섯 가지 유형의 제어 가능한 단일 요소 제약을 도입하는 벤치마크인 ShotFinder를 소개합니다. 우리는 YouTube에서 20개의 주제 범주에 걸쳐 1,210개의 고품질 샘플을 수집하고, 대규모 모델을 사용하여 생성하고 인간의 검증을 거쳤습니다. 이 벤치마크를 기반으로, 우리는 텍스트 기반의 세 단계 검색 및 위치 추적 파이프라인인 ShotFinder를 제안합니다. (1) 비디오 상상을 통한 쿼리 확장, (2) 검색 엔진을 사용한 후보 비디오 검색, (3) 설명 기반의 시간적 위치 추적입니다. 다양한 독점 및 오픈 소스 모델에 대한 실험 결과, 인간 수준의 성능과의 상당한 격차가 있음을 보여주며, 제약 조건 간의 불균형이 명확합니다. 시간적 위치 추적은 비교적 용이하지만, 색상 및 시각적 스타일은 여전히 주요 과제입니다. 이러한 결과는 개방형 비디오 샷 검색이 멀티모달 대규모 모델이 아직 극복해야 할 중요한 능력임을 보여줍니다.
In recent years, large language models (LLMs) have made rapid progress in information retrieval, yet existing research has mainly focused on text or static multimodal settings. Open-domain video shot retrieval, which involves richer temporal structure and more complex semantics, still lacks systematic benchmarks and analysis. To fill this gap, we introduce ShotFinder, a benchmark that formalizes editing requirements as keyframe-oriented shot descriptions and introduces five types of controllable single-factor constraints: Temporal order, Color, Visual style, Audio, and Resolution. We curate 1,210 high-quality samples from YouTube across 20 thematic categories, using large models for generation with human verification. Based on the benchmark, we propose ShotFinder, a text-driven three-stage retrieval and localization pipeline: (1) query expansion via video imagination, (2) candidate video retrieval with a search engine, and (3) description-guided temporal localization. Experiments on multiple closed-source and open-source models reveal a significant gap to human performance, with clear imbalance across constraints: temporal localization is relatively tractable, while color and visual style remain major challenges. These results reveal that open-domain video shot retrieval is still a critical capability that multimodal large models have yet to overcome.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.