VideoThinker: LLM 기반 도구 추론을 활용한 능동적인 비디오 LLM 구축
VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning
장시간 비디오 이해는 현재 비디오 대규모 언어 모델(Video Large Language Models)의 기본적인 과제입니다. 대부분의 기존 모델은 균일하게 샘플링된 프레임에 대한 정적인 추론에 의존하며, 이는 시간적 위치 정보를 약화시키고 장시간 비디오에서 상당한 정보 손실을 초래합니다. 시간적 검색, 공간 확대, 시간 확대와 같은 능동적인 도구는 핵심 순간을 적응적으로 탐색하여 이러한 제한 사항을 극복하는 자연스러운 방법을 제공합니다. 그러나 능동적인 비디오 이해 데이터를 구축하려면 이미 강력한 장시간 비디오 이해 능력을 갖춘 모델이 필요하며, 이는 순환 의존성을 야기합니다. 우리는 VideoThinker라는 능동적인 비디오 대규모 언어 모델을 개발하여 이 문제를 해결했습니다. VideoThinker는 완전히 합성된 도구 상호 작용 경로로 학습되었습니다. 핵심 아이디어는 비디오를 풍부한 캡션으로 변환하고, 강력한 능동적인 언어 모델을 사용하여 캡션 공간에서 다단계 도구 사용 시퀀스를 생성하는 것입니다. 이러한 시퀀스는 이후 캡션을 해당 프레임으로 대체하여 비디오와 도구 추론 데이터를 생성하며, 이는 기본 모델에서 장시간 비디오 이해 능력이 필요하지 않습니다. 이 합성된 능동적인 데이터 세트로 학습된 VideoThinker는 동적 추론 능력, 적응적인 시간적 탐색 및 다단계 도구 사용 능력을 갖추게 됩니다. 놀랍게도, VideoThinker는 장시간 비디오 벤치마크에서 캡션만 사용하는 언어 모델 에이전트와 강력한 비디오 모델 기준을 모두 크게 능가하며, 이는 도구 강화 합성 데이터 및 적응적인 검색 및 확대 추론이 장시간 비디오 이해에 효과적임을 입증합니다.
Long-form video understanding remains a fundamental challenge for current Video Large Language Models. Most existing models rely on static reasoning over uniformly sampled frames, which weakens temporal localization and leads to substantial information loss in long videos. Agentic tools such as temporal retrieval, spatial zoom, and temporal zoom offer a natural way to overcome these limitations by enabling adaptive exploration of key moments. However, constructing agentic video understanding data requires models that already possess strong long-form video comprehension, creating a circular dependency. We address this challenge with VideoThinker, an agentic Video Large Language Model trained entirely on synthetic tool interaction trajectories. Our key idea is to convert videos into rich captions and employ a powerful agentic language model to generate multi-step tool use sequences in caption space. These trajectories are subsequently grounded back to video by replacing captions with the corresponding frames, yielding a large-scale interleaved video and tool reasoning dataset without requiring any long-form understanding from the underlying model. Training on this synthetic agentic dataset equips VideoThinker with dynamic reasoning capabilities, adaptive temporal exploration, and multi-step tool use. Remarkably, VideoThinker significantly outperforms both caption-only language model agents and strong video model baselines across long-video benchmarks, demonstrating the effectiveness of tool augmented synthetic data and adaptive retrieval and zoom reasoning for long-form video understanding.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.