프레임을 활용한 사고: 시각적 맥락과 테스트 시간 스케일링이 비디오 추론을 향상시키는 방법
Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning
시각-언어 모델은 텍스트 추론에서 뛰어난 성능을 보였지만, 미세한 공간 이해와 연속적인 행동 계획에는 어려움을 겪으며, 복잡한 시각적 추론에 필요한 동역학을 시뮬레이션하지 못합니다. 본 연구에서는 비디오 생성 모델을 사용하여 시각적 추론을 수행하며, 생성된 프레임이 초기 상태와 해결책 사이의 중간 추론 단계 역할을 할 수 있다고 제안합니다. 우리는 두 가지 다른 환경에서 모델의 능력을 평가했습니다. 첫째는 시각적 변화가 적은 순차적 이산 계획을 요구하는 미로 탐색, 둘째는 시각적 변화가 큰 연속적인 조작을 요구하는 탕그램 퍼즐입니다. 우리의 실험 결과는 세 가지 중요한 통찰력을 보여줍니다. (1) 강력한 제로샷 일반화: 두 작업 모두에서 모델은 특정 미세 조정 없이도 새로운 데이터 분포에 대해 강력한 성능을 보입니다. (2) 시각적 맥락: 모델은 에이전트 아이콘 및 탕그램 모양과 같은 시각적 맥락을 명시적인 제어 방식으로 효과적으로 활용하여 높은 시각적 일관성을 유지하고, 새로운 패턴에 대한 계획 능력을 강력하게 조정합니다. (3) 시각적 테스트 시간 스케일링: 순차적 계획에서 테스트 시간 스케일링 법칙을 관찰했습니다. 생성된 비디오 길이를 늘리면 (시각적 추론 예산 증가) 공간적 및 시간적으로 복잡한 경로에 대한 제로샷 일반화 성능이 향상됩니다. 이러한 결과는 비디오 생성이 단순한 미디어 도구가 아니라, 확장 가능하고 일반화 가능한 시각적 추론의 패러다임임을 시사합니다.
Vision-Language Models have excelled at textual reasoning, but they often struggle with fine-grained spatial understanding and continuous action planning, failing to simulate the dynamics required for complex visual reasoning. In this work, we formulate visual reasoning by means of video generation models, positing that generated frames can act as intermediate reasoning steps between initial states and solutions. We evaluate their capacity in two distinct regimes: Maze Navigation for sequential discrete planning with low visual change and Tangram Puzzle for continuous manipulation with high visual change. Our experiments reveal three critical insights: (1) Robust Zero-Shot Generalization: In both tasks, the model demonstrates strong performance on unseen data distributions without specific finetuning. (2) Visual Context: The model effectively uses visual context as explicit control, such as agent icons and tangram shapes, enabling it to maintain high visual consistency and adapt its planning capability robustly to unseen patterns. (3) Visual Test-Time Scaling: We observe a test-time scaling law in sequential planning; increasing the generated video length (visual inference budget) empowers better zero-shot generalization to spatially and temporally complex paths. These findings suggest that video generation is not merely a media tool, but a scalable, generalizable paradigm for visual reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.