2603.07109v1 Mar 07, 2026 cs.AI

비전 언어 모델은 물리적 변환에 대해 추론할 수 없다

Vision Language Models Cannot Reason About Physical Transformation

Dezhi Luo
Dezhi Luo
Citations: 102
h-index: 6
Yijiang Li
Yijiang Li
Citations: 80
h-index: 5
Maijunxian Wang
Maijunxian Wang
Citations: 4
h-index: 1
Bingyang Wang
Bingyang Wang
Citations: 46
h-index: 3
Tianwei Zhao
Tianwei Zhao
Citations: 65
h-index: 3
Siheng Wang
Siheng Wang
Citations: 13
h-index: 2
Hokin Deng
Hokin Deng
Citations: 96
h-index: 6
Pinyuan Feng
Pinyuan Feng
Citations: 73
h-index: 4
Pooyan Rahmanzadehgervi
Pooyan Rahmanzadehgervi
Auburn University
Citations: 115
h-index: 3
Ziqiao Ma
Ziqiao Ma
Citations: 4
h-index: 1

물리적 변환에 대한 이해는 동적인 환경에서 추론하는 데 근본적이다. 비전 언어 모델(VLMs)은 임베디드 애플리케이션에서 유망한 가능성을 보이지만, 실제로 물리적 변환을 얼마나 잘 이해하는지는 불분명하다. 본 논문에서는 물리적 양이 변환에 따라 불변인지 여부를 평가하는 ConservationBench를 소개한다. ConservationBench는 네 가지 속성을 다루며, 각 속성별로 보존되는 시나리오와 보존되지 않는 시나리오를 쌍으로 구성하여 총 23,040개의 질문을 112개의 VLMs에 대해 생성하였다. 실험 결과, VLMs는 체계적인 실패를 보이는 것으로 나타났다. 보존 관련 작업에서 성능이 향상되는 경우, 통제 실험에서 성능이 저하되는 경향이 있었다. 통제 실험에서는 텍스트 기반의 선입견이 불변성을 선호하는 경향이 강했지만, 시각적 내용이 포함될수록 모델의 성능은 오히려 더 나빠졌다. 시간 분해, 프롬프트, 그리고 선별된 데이터 샘플링을 사용해도 이러한 문제는 해결되지 않았다. 이러한 결과는 현재의 VLMs가 동적인 장면에서 물리적 속성에 대한 변환 불변 표현을 유지하는 데 실패한다는 것을 보여준다.

Original Abstract

Understanding physical transformations is fundamental for reasoning in dynamic environments. While Vision Language Models (VLMs) show promise in embodied applications, whether they genuinely understand physical transformations remains unclear. We introduce ConservationBench evaluating conservation -- whether physical quantities remain invariant under transformations. Spanning four properties with paired conserving/non-conserving scenarios, we generate 23,040 questions across 112 VLMs. Results reveal systematic failure: performance remains near chance with improvements on conservation tasks accompanied by drops on controls. Control experiments show strong textual priors favoring invariance, yet models perform worse with visual content. Neither temporal resolution, prompting, nor curated sampling helps. These findings show that current VLMs fail to maintain transformation-invariant representations of physical properties across dynamic scenes.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!