VideoTemp-o3: 에이전트 기반 비디오 이해에서 시간적 정렬과 비디오 이해의 조화
VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos
장시간 비디오 이해에서, 기존의 균일한 프레임 샘플링 방식은 종종 중요한 시각적 증거를 포착하지 못하여 성능 저하와 환각 현상을 유발합니다. 이러한 문제를 해결하기 위해, 최근에는 에이전트 기반 비디오 이해 패러다임이 등장하여 모델이 관련 비디오 세그먼트를 적극적으로 식별하고, 해당 세그먼트 내에서 밀집 샘플링을 수행한 후 답변을 생성하는 '탐색-클리핑-답변' 파이프라인을 채택합니다. 그러나 기존 방법은 여전히 비효율적이며, 약한 지역화 능력을 가지고 있고, 경직된 워크플로우를 따릅니다. 이러한 문제점을 해결하기 위해, 본 연구에서는 비디오 정렬과 질문 답변을 동시에 모델링하는 통합 에이전트 기반 비디오 이해 프레임워크인 VideoTemp-o3를 제안합니다. VideoTemp-o3는 강력한 지역화 능력을 갖추고 있으며, 필요에 따라 클리핑을 지원하고, 부정확한 지역화를 개선할 수 있습니다. 특히, 지도 학습 단계에서는 탐색을 장려하고 노이즈를 방지하는 통합 마스킹 메커니즘을 설계했습니다. 강화 학습에서는 '보상 해킹'을 완화하기 위한 전용 보상을 도입했습니다. 또한, 데이터 측면에서, 고품질의 장시간 비디오 기반 질문-답변 데이터를 구축하는 효과적인 파이프라인을 개발했으며, 다양한 비디오 길이에 대한 체계적인 평가를 위한 벤치마크를 함께 제공합니다. 실험 결과는 제안하는 방법이 장시간 비디오 이해 및 정렬 측면에서 뛰어난 성능을 달성함을 보여줍니다.
In long-video understanding, conventional uniform frame sampling often fails to capture key visual evidence, leading to degraded performance and increased hallucinations. To address this, recent agentic thinking-with-videos paradigms have emerged, adopting a localize-clip-answer pipeline in which the model actively identifies relevant video segments, performs dense sampling within those clips, and then produces answers. However, existing methods remain inefficient, suffer from weak localization, and adhere to rigid workflows. To solve these issues, we propose VideoTemp-o3, a unified agentic thinking-with-videos framework that jointly models video grounding and question answering. VideoTemp-o3 exhibits strong localization capability, supports on-demand clipping, and can refine inaccurate localizations. Specifically, in the supervised fine-tuning stage, we design a unified masking mechanism that encourages exploration while preventing noise. For reinforcement learning, we introduce dedicated rewards to mitigate reward hacking. Besides, from the data perspective, we develop an effective pipeline to construct high-quality long video grounded QA data, along with a corresponding benchmark for systematic evaluation across various video durations. Experimental results demonstrate that our method achieves remarkable performance on both long video understanding and grounding.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.