비디오를 위한 사고 과정 추론
Process-of-Thought Reasoning for Videos
비디오 이해는 시각적 내용 인지뿐만 아니라, 길고 노이즈가 많은 데이터에 대해 시간적으로 연결되고 다단계 추론을 수행하는 것을 필요로 합니다. 본 논문에서는 비디오 추론 과정을 가볍고 검증 가능한 단계 시퀀스로 구성하여 추론 과정을 명확하게 드러내는 '사고 과정 (Process-of-Thought, PoT) 추론' 프레임워크를 제안합니다. PoT는 (i) 시간적 증거 선택, (ii) 단계별 상태 업데이트, 그리고 (iii) 제약 조건 기반 답변 생성 단계를 결합하여, 모델이 비디오 증거에 대한 추적성을 유지하면서 가설을 점진적으로 개선할 수 있도록 합니다. 본 프레임워크는 모델에 독립적이며 기존의 시각-언어 모델에 통합될 수 있습니다. 또한, 외부 도구를 활용한 증거 기반 추론과 자체 학습 추론을 모두 지원합니다. 더 나아가, PoT 추론 과정을 시간적 구간과 연결하는 통합된 표현 방식을 도입하여, 주의 분산 요인에 대한 강건성을 향상시키고 환각된 설명을 줄입니다. 표준 비디오 추론 작업에 대한 광범위한 실험 결과는 PoT가 사실 정확성과 시간적 연결성을 지속적으로 향상시키며, 진단 및 후속 활용을 위한 해석 가능한 추론 과정을 제공한다는 것을 보여줍니다.
Video understanding requires not only recognizing visual content but also performing temporally grounded, multi-step reasoning over long and noisy observations. We propose Process-of-Thought (PoT) Reasoning for Videos, a framework that makes the reasoning process explicit by structuring video inference into a sequence of lightweight, verifiable steps. PoT interleaves (i) temporal evidence selection, (ii) step-wise state updates, and (iii) constrained answer synthesis, enabling the model to progressively refine hypotheses while maintaining traceability to video evidence. The framework is designed to be model-agnostic and can be plugged into existing vision-language backbones, supporting both closed-book reasoning and evidence-augmented reasoning with external tools. We further introduce a unified representation for PoT traces that aligns intermediate decisions with temporal segments, which improves robustness to distractors and reduces hallucinated explanations. Extensive experiments on standard video reasoning tasks demonstrate that PoT consistently improves factual correctness and temporal grounding, while providing interpretable reasoning traces for diagnosis and downstream use.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.