LensWalk: 비디오 내에서 어떻게 볼 것인지 계획함으로써 에이전트 기반 비디오 이해
LensWalk: Agentic Video Understanding by Planning How You See in Videos
비디오의 풍부하고 시간적 특성은 자동 분석에 심각한 과제를 제시합니다. 강력한 시각-언어 모델을 사용함에도 불구하고, 현재의 비디오 이해 방법은 추론과 인식 간의 근본적인 단절로 인해 제한됩니다. 이러한 방법들은 정적이고 사전 처리된 정보에 의존하며, 이해가 발전함에 따라 비디오에서 직접적인 증거를 능동적으로 탐색할 수 없습니다. 이러한 문제를 해결하기 위해, 저희는 대규모 언어 모델 추론기가 자신의 시각적 관찰을 능동적으로 제어할 수 있도록 하는 유연한 에이전트 기반 프레임워크인 LensWalk를 소개합니다. LensWalk는 에이전트가 각 단계에서 관찰하는 비디오의 시간 범위와 샘플링 밀도를 동적으로 지정하는, 추론-계획-관찰의 밀접한 루프를 구축합니다. 다양한 시각-언어 모델 기반 도구를 이러한 사양으로 파라미터화하여, 에이전트는 광범위한 스캔을 통해 단서를 찾고, 특정 세그먼트에 집중하여 사실을 추출하고, 여러 시점의 증거를 연결하여 전체적인 검증을 수행할 수 있습니다. 이러한 설계는 에이전트의 진화하는 사고 과정을 직접적으로 지원하는 점진적인, 필요에 따른 증거 수집을 가능하게 합니다. LensWalk는 모델의 미세 조정 없이, 다양한 모델 아키텍처에서 상당한 성능 향상을 제공하며, LVBench 및 Video-MME와 같은 어려운 긴 비디오 벤치마크에서 정확도를 5% 이상 향상시킵니다. 저희의 분석 결과, 에이전트가 어떻게 볼 것인지 제어할 수 있도록 하는 것은 더 정확하고 강력하며 해석 가능한 비디오 추론을 가능하게 하는 핵심 요소임을 보여줍니다.
The dense, temporal nature of video presents a profound challenge for automated analysis. Despite the use of powerful Vision-Language Models, prevailing methods for video understanding are limited by the inherent disconnect between reasoning and perception: they rely on static, pre-processed information and cannot actively seek raw evidence from video as their understanding evolves. To address this, we introduce LensWalk, a flexible agentic framework that empowers a Large Language Model reasoner to control its own visual observation actively. LensWalk establishes a tight reason-plan-observe loop where the agent dynamically specifies, at each step, the temporal scope and sampling density of the video it observes. Using a suite of versatile, Vision-Language Model based tools parameterized by these specifications, the agent can perform broad scans for cues, focus on specific segments for fact extraction, and stitch evidence from multiple moments for holistic verification. This design allows for progressive, on-demand evidence gathering that directly serves the agent's evolving chain of thought. Without requiring any model fine-tuning, LensWalk delivers substantial, plug-and-play performance gains on multiple model recipes, boosting their accuracy by over 5\% on challenging long-video benchmarks like LVBench and Video-MME. Our analysis reveals that enabling an agent to control how it sees is key to unlocking more accurate, robust, and interpretable video reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.