2603.20185v1 Mar 20, 2026 cs.CV

VideoSeek: 도구 기반 탐색을 활용한 장거리 비디오 에이전트

VideoSeek: Long-Horizon Video Agent with Tool-Guided Seeking

Zicheng Liu
Zicheng Liu
Citations: 1,188
h-index: 12
Jialian Wu
Jialian Wu
Citations: 552
h-index: 6
Jiang Liu
Jiang Liu
Citations: 541
h-index: 6
Ximeng Sun
Ximeng Sun
Citations: 541
h-index: 6
E. Barsoum
E. Barsoum
Citations: 15
h-index: 3
Jingyang Lin
Jingyang Lin
Citations: 352
h-index: 5
Ze Wang
Ze Wang
Citations: 608
h-index: 6
Xiaodong Yu
Xiaodong Yu
Citations: 577
h-index: 7
Jiebo Luo
Jiebo Luo
Citations: 87
h-index: 4

비디오 에이전트 모델은 어려운 비디오-언어 관련 작업에서 상당한 발전을 이루었습니다. 그러나 대부분의 에이전트 모델은 여전히 밀집적으로 샘플링된 비디오 프레임에 대한 탐욕적인 분석에 크게 의존하여 높은 계산 비용을 초래합니다. 본 논문에서는 비디오 논리 흐름을 활용하여 답변에 중요한 증거를 능동적으로 탐색하는 장거리 비디오 에이전트인 VideoSeek을 제시합니다. 이러한 접근 방식을 통해 모델은 훨씬 더 적은 수의 프레임을 사용하면서도 비디오 이해 능력을 유지하거나 향상시킬 수 있습니다. VideoSeek은 잘 설계된 도구 키트를 사용하여 다양한 수준의 비디오 정보를 수집하는 '생각-행동-관찰' 루프 방식으로 작동하며, 이는 축적된 정보에 대한 쿼리 기반 탐색을 가능하게 하고 실제 비디오 이해 및 추론을 지원합니다. 네 가지 어려운 비디오 이해 및 추론 벤치마크에서 수행한 실험 결과, VideoSeek은 이전 비디오 에이전트 및 독립적인 LMM(Large Multimodal Model)보다 훨씬 적은 수의 프레임을 사용하면서도 높은 정확도를 달성했습니다. 특히, VideoSeek은 기본 모델인 GPT-5에 비해 LVBench에서 10.2%p의 성능 향상을 보였으며, 동시에 93% 더 적은 수의 프레임을 사용했습니다. 추가 분석을 통해 비디오 논리 흐름 활용, 강력한 추론 능력, 그리고 도구 키트 설계의 상호 보완적인 역할이 중요하다는 것을 확인했습니다.

Original Abstract

Video agentic models have advanced challenging video-language tasks. However, most agentic approaches still heavily rely on greedy parsing over densely sampled video frames, resulting in high computational cost. We present VideoSeek, a long-horizon video agent that leverages video logic flow to actively seek answer-critical evidence instead of exhaustively parsing the full video. This insight allows the model to use far fewer frames while maintaining, or even improving, its video understanding capability. VideoSeek operates in a think-act-observe loop with a well-designed toolkit for collecting multi-granular video observations. This design enables query-aware exploration over accumulated observations and supports practical video understanding and reasoning. Experiments on four challenging video understanding and reasoning benchmarks demonstrate that VideoSeek achieves strong accuracy while using far fewer frames than prior video agents and standalone LMMs. Notably, VideoSeek achieves a 10.2 absolute points improvement on LVBench over its base model, GPT-5, while using 93% fewer frames. Further analysis highlights the significance of leveraging video logic flow, strong reasoning capability, and the complementary roles of toolkit design.

3 Citations
2 Influential
6 Altmetric
37.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!