CamReasoner: 구조화된 공간 추론을 통한 카메라 움직임 이해 강화
CamReasoner: Reinforcing Camera Movement Understanding via Structured Spatial Reasoning
카메라 역학에 대한 이해는 비디오 공간 지능의 핵심 요소입니다. 그러나 기존의 다중 모달 모델은 이 작업을 대부분 블랙박스 분류로 처리하며, 종종 표면적인 시각적 패턴에 의존하여 기하학적 단서보다는 물리적으로 다른 움직임을 혼동하는 경향이 있습니다. 본 논문에서는 카메라 움직임 이해를 구조화된 추론 과정으로 재구성하여 인지 및 영화적 논리 간의 격차를 해소하는 프레임워크인 CamReasoner을 제시합니다. 저희의 접근 방식은 관찰-사고-답변(O-T-A) 패러다임을 중심으로 하며, 모델이 명시적인 추론 블록 내에서 궤적 및 시야구와 같은 시공간적 단서를 해독하도록 유도합니다. 이러한 능력을 부여하기 위해, 18,000개의 SFT 추론 체인과 38,000개의 강화 학습(RL) 피드백 샘플로 구성된 대규모 추론 궤적 데이터셋을 구축했습니다. 주목할 점은 저희가 이 분야에서 논리적 정렬을 위해 RL을 처음으로 사용했으며, 이를 통해 움직임 추론이 문맥적 추측보다는 물리적 기하학에 기반하도록 보장합니다. 관찰-사고-답변(O-T-A) 추론 패러다임에 강화 학습을 적용함으로써, CamReasoner은 환각 현상을 효과적으로 억제하고 여러 벤치마크에서 최첨단 성능을 달성합니다.
Understanding camera dynamics is a fundamental pillar of video spatial intelligence. However, existing multimodal models predominantly treat this task as a black-box classification, often confusing physically distinct motions by relying on superficial visual patterns rather than geometric cues. We present CamReasoner, a framework that reformulates camera movement understanding as a structured inference process to bridge the gap between perception and cinematic logic. Our approach centers on the Observation-Thinking-Answer (O-T-A) paradigm, which compels the model to decode spatio-temporal cues such as trajectories and view frustums within an explicit reasoning block. To instill this capability, we construct a Large-scale Inference Trajectory Suite comprising 18k SFT reasoning chains and 38k RL feedback samples. Notably, we are the first to employ RL for logical alignment in this domain, ensuring motion inferences are grounded in physical geometry rather than contextual guesswork. By applying Reinforcement Learning to the Observation-Think-Answer (O-T-A) reasoning paradigm, CamReasoner effectively suppresses hallucinations and achieves state-of-the-art performance across multiple benchmarks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.