비전 언어 모델은 물리적 변환에 대해 추론할 수 없다
Vision Language Models Cannot Reason About Physical Transformation
물리적 변환에 대한 이해는 동적인 환경에서 추론하는 데 근본적이다. 비전 언어 모델(VLMs)은 임베디드 애플리케이션에서 유망한 가능성을 보이지만, 실제로 물리적 변환을 얼마나 잘 이해하는지는 불분명하다. 본 논문에서는 물리적 양이 변환에 따라 불변인지 여부를 평가하는 ConservationBench를 소개한다. ConservationBench는 네 가지 속성을 다루며, 각 속성별로 보존되는 시나리오와 보존되지 않는 시나리오를 쌍으로 구성하여 총 23,040개의 질문을 112개의 VLMs에 대해 생성하였다. 실험 결과, VLMs는 체계적인 실패를 보이는 것으로 나타났다. 보존 관련 작업에서 성능이 향상되는 경우, 통제 실험에서 성능이 저하되는 경향이 있었다. 통제 실험에서는 텍스트 기반의 선입견이 불변성을 선호하는 경향이 강했지만, 시각적 내용이 포함될수록 모델의 성능은 오히려 더 나빠졌다. 시간 분해, 프롬프트, 그리고 선별된 데이터 샘플링을 사용해도 이러한 문제는 해결되지 않았다. 이러한 결과는 현재의 VLMs가 동적인 장면에서 물리적 속성에 대한 변환 불변 표현을 유지하는 데 실패한다는 것을 보여준다.
Understanding physical transformations is fundamental for reasoning in dynamic environments. While Vision Language Models (VLMs) show promise in embodied applications, whether they genuinely understand physical transformations remains unclear. We introduce ConservationBench evaluating conservation -- whether physical quantities remain invariant under transformations. Spanning four properties with paired conserving/non-conserving scenarios, we generate 23,040 questions across 112 VLMs. Results reveal systematic failure: performance remains near chance with improvements on conservation tasks accompanied by drops on controls. Control experiments show strong textual priors favoring invariance, yet models perform worse with visual content. Neither temporal resolution, prompting, nor curated sampling helps. These findings show that current VLMs fail to maintain transformation-invariant representations of physical properties across dynamic scenes.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.