PhysicsMind: 기초 VL 모델 및 세계 모델의 물리적 추론 및 예측을 위한 시뮬레이션 및 실제 환경 기반 벤치마킹
PhysicsMind: Sim and Real Mechanics Benchmarking for Physical Reasoning and Prediction in Foundational VLMs and World Models
최신 다중 모드 대규모 언어 모델(MLLM)과 비디오 세계 모델은 수학, 상식, 시각적 추론 분야에서 상당한 발전을 이루었지만, 이러한 모델들이 지닌 근본적인 물리 법칙에 대한 이해는 아직 충분히 연구되지 않았습니다. 이 문제를 측정하려는 기존 벤치마크는 주로 합성된 시각적 질문 답변(VQA) 템플릿에 의존하거나, 물리 법칙 준수 여부와는 직접적인 관련이 없는 비디오 품질에 초점을 맞추고 있습니다. 이러한 문제점을 해결하기 위해, 우리는 실제 환경과 시뮬레이션 환경을 모두 포함하는 통합 벤치마크인 PhysicsMind를 소개합니다. PhysicsMind는 질량 중심, 지레 평형, 뉴턴의 제1법칙이라는 세 가지 기본적인 원리에 대한 일관성 있는 추론 및 생성 능력을 평가합니다. PhysicsMind는 크게 두 가지 주요 작업으로 구성됩니다. 첫째, 모델이 이미지 또는 짧은 비디오에서 물리적 양과 값을 추론하고 결정할 수 있는지 테스트하는 VQA 작업입니다. 둘째, 예측된 운동 궤적이 기준 진실과 동일한 질량 중심, 토크, 관성 제약 조건을 따르는지 평가하는 비디오 생성(VG) 작업입니다. PhysicsMind를 사용하여 다양한 최신 모델과 비디오 생성 모델을 평가한 결과, 대부분의 모델이 외관 기반의 휴리스틱에 의존하며 기본적인 역학 법칙을 위반하는 경향이 있는 것으로 나타났습니다. 이러한 격차는 현재의 확장 및 학습 방식이 강력한 물리적 이해를 위해서는 여전히 부족하다는 것을 시사하며, PhysicsMind는 물리적 요소를 고려한 다중 모드 모델을 위한 집중적인 테스트 환경으로 활용될 수 있습니다. 데이터는 논문 게재 승인 후 공개될 예정입니다.
Modern foundational Multimodal Large Language Models (MLLMs) and video world models have advanced significantly in mathematical, common-sense, and visual reasoning, but their grasp of the underlying physics remains underexplored. Existing benchmarks attempting to measure this matter rely on synthetic, Visual Question Answer templates or focus on perceptual video quality that is tangential to measuring how well the video abides by physical laws. To address this fragmentation, we introduce PhysicsMind, a unified benchmark with both real and simulation environments that evaluates law-consistent reasoning and generation over three canonical principles: Center of Mass, Lever Equilibrium, and Newton's First Law. PhysicsMind comprises two main tasks: i) VQA tasks, testing whether models can reason and determine physical quantities and values from images or short videos, and ii) Video Generation(VG) tasks, evaluating if predicted motion trajectories obey the same center-of-mass, torque, and inertial constraints as the ground truth. A broad range of recent models and video generation models is evaluated on PhysicsMind and found to rely on appearance heuristics while often violating basic mechanics. These gaps indicate that current scaling and training are still insufficient for robust physical understanding, underscoring PhysicsMind as a focused testbed for physics-aware multimodal models. Our data will be released upon acceptance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.