PhysVid: 생성 비디오 모델을 위한 물리적 지식을 활용한 로컬 조건부 학습
PhysVid: Physics Aware Local Conditioning for Generative Video Models
생성 비디오 모델은 높은 시각적 충실도를 달성하지만, 종종 기본적인 물리 법칙을 위반하여 실제 환경에서의 신뢰성을 제한합니다. 기존의 물리 법칙 주입 방식은 주로 조건부 학습에 의존하는데, 프레임 단위의 신호는 도메인 특이적이고 짧은 시간 범위에 국한되며, 전역 텍스트 프롬프트는 세부적인 내용을 놓치게 하는 부정확한 정보가 많습니다. 본 연구에서는 PhysVid라는 물리적 지식을 활용한 로컬 조건부 학습 방식을 제안합니다. 이 방식은 시간적으로 연속된 프레임 묶음을 사용하여 각 묶음에 물리적 기반의 상태, 상호 작용 및 제약 조건에 대한 설명을 추가하고, 이를 전역 프롬프트와 결합하여 학습 과정에서 묶음 단위의 주의 메커니즘을 활용합니다. 추론 단계에서는, 생성 과정에서 발생할 수 있는 물리 법칙 위반에 대한 부정적인 프롬프트를 도입하여 비현실적인 경로 생성을 방지합니다. VideoPhy 데이터셋에서 PhysVid는 기존 비디오 생성 모델보다 물리적 상식 점수를 약 33% 향상시켰으며, VideoPhy2 데이터셋에서도 최대 약 8%의 향상을 보였습니다. 이러한 결과는 로컬 수준에서 물리적 지식을 활용한 가이드가 생성 비디오의 물리적 타당성을 크게 향상시키며, 물리 기반의 비디오 모델 개발에 중요한 진전을 이룬다는 것을 보여줍니다.
Generative video models achieve high visual fidelity but often violate basic physical principles, limiting reliability in real-world settings. Prior attempts to inject physics rely on conditioning: frame-level signals are domain-specific and short-horizon, while global text prompts are coarse and noisy, missing fine-grained dynamics. We present PhysVid, a physics-aware local conditioning scheme that operates over temporally contiguous chunks of frames. Each chunk is annotated with physics-grounded descriptions of states, interactions, and constraints, which are fused with the global prompt via chunk-aware cross-attention during training. At inference, we introduce negative physics prompts (descriptions of locally relevant law violations) to steer generation away from implausible trajectories. On VideoPhy, PhysVid improves physical commonsense scores by $\approx 33\%$ over baseline video generators, and by up to $\approx 8\%$ on VideoPhy2. These results show that local, physics-aware guidance substantially increases physical plausibility in generative video and marks a step toward physics-grounded video models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.