관찰, 추론, 검색: 에이전트 기반 비디오 추론을 위한 오픈 웹 환경에서의 비디오 심층 연구 벤치마크
Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning
실제 비디오 질의응답 시나리오에서, 비디오는 종종 제한적인 시각적 단서를 제공하는 반면, 검증 가능한 답변은 개방형 웹에 분산되어 있습니다. 따라서 모델은 프레임 간 단서 추출, 반복적인 검색, 그리고 다단계 추론 기반 검증을 동시에 수행해야 합니다. 이러한 격차를 해소하기 위해, 우리는 최초의 비디오 심층 연구 벤치마크인 VideoDR을 구축했습니다. VideoDR은 비디오 정보를 활용한 개방형 도메인 비디오 질의응답을 중심으로 하며, 프레임 간 시각적 앵커 추출, 상호 작용적인 웹 검색, 그리고 비디오-웹 증거에 대한 다단계 추론을 요구합니다. 엄격한 인간 주석 및 품질 관리를 통해, 우리는 여섯 가지 의미 영역을 포괄하는 고품질의 비디오 심층 연구 샘플을 확보했습니다. 우리는 다양한 비공개 및 공개 멀티모달 대규모 언어 모델을 Workflow 및 Agentic 패러다임 하에서 평가했으며, 그 결과 Agentic가 항상 Workflow보다 우수한 것은 아니라는 점을 확인했습니다. Agentic의 성능 향상은 모델이 초기 비디오 앵커를 장기간 검색 과정에서 유지하는 능력에 따라 달라집니다. 추가 분석 결과, 목표 편향(goal drift) 및 장기 일관성(long-horizon consistency)이 주요 문제점으로 나타났습니다. 요약하자면, VideoDR은 개방형 웹 환경에서 비디오 에이전트를 연구하기 위한 체계적인 벤치마크를 제공하며, 차세대 비디오 심층 연구 에이전트에 대한 주요 과제를 제시합니다.
In real-world video question answering scenarios, videos often provide only localized visual cues, while verifiable answers are distributed across the open web; models therefore need to jointly perform cross-frame clue extraction, iterative retrieval, and multi-hop reasoning-based verification. To bridge this gap, we construct the first video deep research benchmark, VideoDR. VideoDR centers on video-conditioned open-domain video question answering, requiring cross-frame visual anchor extraction, interactive web retrieval, and multi-hop reasoning over joint video-web evidence; through rigorous human annotation and quality control, we obtain high-quality video deep research samples spanning six semantic domains. We evaluate multiple closed-source and open-source multimodal large language models under both the Workflow and Agentic paradigms, and the results show that Agentic is not consistently superior to Workflow: its gains depend on a model's ability to maintain the initial video anchors over long retrieval chains. Further analysis indicates that goal drift and long-horizon consistency are the core bottlenecks. In sum, VideoDR provides a systematic benchmark for studying video agents in open-web settings and reveals the key challenges for next-generation video deep research agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.