비디오 월드 모델에서의 물리학 해석
Interpreting Physics in Video World Models
물리적 추론에서 오랜 기간 동안 논의되어 온 질문은 비디오 기반 모델이 물리적으로 정확한 예측을 하기 위해 물리적 변수의 분해된 표현에 의존해야 하는지, 아니면 이러한 변수를 작업별로 분산된 방식으로 암묵적으로 표현할 수 있는지 여부입니다. 최신 비디오 월드 모델은 직관적인 물리학 벤치마크에서 뛰어난 성능을 보이지만, 이러한 모델들이 내부적으로 어떤 표현 방식을 사용하는지는 여전히 불분명합니다. 본 연구에서는 대규모 비디오 인코더 내의 물리적 표현을 직접적으로 분석하는 최초의 해석 가능성 연구를 제시합니다. 레이어별 분석, 부분 공간 기하학, 패치 단위 디코딩, 그리고 목표 지향적인 어텐션 제거 기술을 사용하여, 물리적 정보가 언제 접근 가능해지는지, 그리고 인코더 기반 비디오 트랜스포머 내에서 어떻게 조직되어 있는지 분석했습니다. 다양한 아키텍처에서, 우리는 물리적 변수가 접근 가능해지는 뚜렷한 중간 깊이 전환 지점 – 이를 '물리학 출현 영역(Physics Emergence Zone)'이라고 명명했습니다 – 를 확인했습니다. 물리학 관련 표현은 이 전환 지점 직후에 최고조에 달하며, 출력 레이어에 가까워질수록 점차 저하됩니다. 움직임을 명시적인 변수로 분해한 결과, 속도 및 가속도와 같은 스칼라 값은 초기 레이어부터 사용할 수 있는 반면, 움직임 방향은 '물리학 출현 영역'에서만 접근 가능해지는 것을 확인했습니다. 주목할 점은, 방향이 고차원적인 구조와 원형 기하학을 통해 인코딩되며, 제어하기 위해서는 다중 특징을 통합한 개입이 필요하다는 것입니다. 이러한 결과는 현대 비디오 모델이 고전적인 물리 엔진과 같이 물리적 변수의 분해된 표현을 사용하지 않는다는 것을 시사합니다. 대신, 물리적 예측을 수행하기에 충분한 분산된 표현 방식을 사용합니다.
A long-standing question in physical reasoning is whether video-based models need to rely on factorized representations of physical variables in order to make physically accurate predictions, or whether they can implicitly represent such variables in a task-specific, distributed manner. While modern video world models achieve strong performance on intuitive physics benchmarks, it remains unclear which of these representational regimes they implement internally. Here, we present the first interpretability study to directly examine physical representations inside large-scale video encoders. Using layerwise probing, subspace geometry, patch-level decoding, and targeted attention ablations, we characterize where physical information becomes accessible and how it is organized within encoder-based video transformers. Across architectures, we identify a sharp intermediate-depth transition -- which we call the Physics Emergence Zone -- at which physical variables become accessible. Physics-related representations peak shortly after this transition and degrade toward the output layers. Decomposing motion into explicit variables, we find that scalar quantities such as speed and acceleration are available from early layers onwards, whereas motion direction becomes accessible only at the Physics Emergence Zone. Notably, we find that direction is encoded through a high-dimensional population structure with circular geometry, requiring coordinated multi-feature intervention to control. These findings suggest that modern video models do not use factorized representations of physical variables like a classical physics engine. Instead, they use a distributed representation that is nonetheless sufficient for making physical predictions.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.