2602.11635v1 Feb 12, 2026 cs.AI

MLLM은 정말로 공간을 이해하는가? 수학적 추론 평가

Do MLLMs Really Understand Space? A Mathematical Reasoning Evaluation

Lijun Sheng
Lijun Sheng
Citations: 259
h-index: 8
Siru Jiang
Siru Jiang
Citations: 3
h-index: 1
Run Ling
Run Ling
Citations: 21
h-index: 4
Ao Ma
Ao Ma
Citations: 40
h-index: 3
Jian Liang
Jian Liang
Citations: 4
h-index: 1
Ran He
Ran He
Citations: 117
h-index: 5
Shuo Lu
Shuo Lu
Citations: 38
h-index: 2
Jianjie Cheng
Jianjie Cheng
Citations: 3
h-index: 1
Yinuo Xu
Yinuo Xu
Citations: 3
h-index: 1
Yongcan Yu
Yongcan Yu
Citations: 40
h-index: 3
Peijie Wang
Peijie Wang
Citations: 80
h-index: 5
Yihua Shao
Yihua Shao
Citations: 14
h-index: 3
Wei Feng
Wei Feng
Citations: 137
h-index: 5
Meng Wang
Meng Wang
Citations: 3
h-index: 1
Qianlong Xie
Qianlong Xie
Citations: 44
h-index: 4
Xingxing Wang
Xingxing Wang
Citations: 23
h-index: 3
Yong Hu
Yong Hu
Citations: 20
h-index: 3
Lingxiao He
Lingxiao He
Citations: 25
h-index: 2

멀티모달 대형 언어 모델(MLLM)은 지각 중심의 작업에서 강력한 성능을 달성했지만, 2차원 및 3차원 관계를 파싱하고 조작하는 능력으로 정의되는 수학적 공간 추론 수행 능력은 여전히 불분명합니다. 인간은 교과서 스타일의 공간 추론 문제를 95% 이상의 정확도로 쉽게 해결하지만, 대부분의 선도적인 MLLM은 동일한 작업에서 60%에도 미치지 못하는 것으로 나타났습니다. 이러한 현격한 차이는 공간 추론이 현재 모델들의 근본적인 약점임을 부각시킵니다. 이 간극을 조사하기 위해, 우리는 MLLM의 공간 추론을 평가하고 개선하기 위한 통합 프레임워크인 MathSpatial을 제안합니다. MathSpatial은 세 가지 상호 보완적인 구성 요소를 포함합니다. (i) 지각적 노이즈로부터 추론의 난이도를 분리하도록 설계된, 3개 카테고리와 11개 하위 유형에 걸친 2,000개 문제로 구성된 벤치마크인 MathSpatial-Bench, (ii) 검증된 풀이가 포함된 8,000개의 추가 문제로 구성된 훈련 데이터셋인 MathSpatial-Corpus, (iii) 추론을 '연관(Correlate)', '제약(Constrain)', '추론(Infer)'이라는 세 가지 원자적 연산으로 구성된 구조화된 흔적(structured traces)으로 모델링하는 MathSpatial-SRT입니다. 실험 결과에 따르면, MathSpatial에서 Qwen2.5-VL-7B를 미세 조정하면 토큰 사용량을 25% 줄이면서도 경쟁력 있는 정확도를 달성하는 것으로 나타났습니다. MathSpatial은 지각과 추론을 분리하여 MLLM의 수학적 공간 추론에 대한 정밀한 측정과 포괄적인 이해를 가능하게 하는 최초의 대규모 자원을 제공합니다.

Original Abstract

Multimodal large language models (MLLMs) have achieved strong performance on perception-oriented tasks, yet their ability to perform mathematical spatial reasoning, defined as the capacity to parse and manipulate two- and three-dimensional relations, remains unclear. Humans easily solve textbook-style spatial reasoning problems with over 95\% accuracy, but we find that most leading MLLMs fail to reach even 60\% on the same tasks. This striking gap highlights spatial reasoning as a fundamental weakness of current models. To investigate this gap, we present MathSpatial, a unified framework for evaluating and improving spatial reasoning in MLLMs. MathSpatial includes three complementary components: (i) MathSpatial-Bench, a benchmark of 2K problems across three categories and eleven subtypes, designed to isolate reasoning difficulty from perceptual noise; (ii) MathSpatial-Corpus, a training dataset of 8K additional problems with verified solutions; and (iii) MathSpatial-SRT, which models reasoning as structured traces composed of three atomic operations--Correlate, Constrain, and Infer. Experiments show that fine-tuning Qwen2.5-VL-7B on MathSpatial achieves competitive accuracy while reducing tokens by 25\%. MathSpatial provides the first large-scale resource that disentangles perception from reasoning, enabling precise measurement and comprehensive understanding of mathematical spatial reasoning in MLLMs.

0 Citations
0 Influential
4 Altmetric
20.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!