MLLM은 정말로 공간을 이해하는가? 수학적 추론 평가
Do MLLMs Really Understand Space? A Mathematical Reasoning Evaluation
멀티모달 대형 언어 모델(MLLM)은 지각 중심의 작업에서 강력한 성능을 달성했지만, 2차원 및 3차원 관계를 파싱하고 조작하는 능력으로 정의되는 수학적 공간 추론 수행 능력은 여전히 불분명합니다. 인간은 교과서 스타일의 공간 추론 문제를 95% 이상의 정확도로 쉽게 해결하지만, 대부분의 선도적인 MLLM은 동일한 작업에서 60%에도 미치지 못하는 것으로 나타났습니다. 이러한 현격한 차이는 공간 추론이 현재 모델들의 근본적인 약점임을 부각시킵니다. 이 간극을 조사하기 위해, 우리는 MLLM의 공간 추론을 평가하고 개선하기 위한 통합 프레임워크인 MathSpatial을 제안합니다. MathSpatial은 세 가지 상호 보완적인 구성 요소를 포함합니다. (i) 지각적 노이즈로부터 추론의 난이도를 분리하도록 설계된, 3개 카테고리와 11개 하위 유형에 걸친 2,000개 문제로 구성된 벤치마크인 MathSpatial-Bench, (ii) 검증된 풀이가 포함된 8,000개의 추가 문제로 구성된 훈련 데이터셋인 MathSpatial-Corpus, (iii) 추론을 '연관(Correlate)', '제약(Constrain)', '추론(Infer)'이라는 세 가지 원자적 연산으로 구성된 구조화된 흔적(structured traces)으로 모델링하는 MathSpatial-SRT입니다. 실험 결과에 따르면, MathSpatial에서 Qwen2.5-VL-7B를 미세 조정하면 토큰 사용량을 25% 줄이면서도 경쟁력 있는 정확도를 달성하는 것으로 나타났습니다. MathSpatial은 지각과 추론을 분리하여 MLLM의 수학적 공간 추론에 대한 정밀한 측정과 포괄적인 이해를 가능하게 하는 최초의 대규모 자원을 제공합니다.
Multimodal large language models (MLLMs) have achieved strong performance on perception-oriented tasks, yet their ability to perform mathematical spatial reasoning, defined as the capacity to parse and manipulate two- and three-dimensional relations, remains unclear. Humans easily solve textbook-style spatial reasoning problems with over 95\% accuracy, but we find that most leading MLLMs fail to reach even 60\% on the same tasks. This striking gap highlights spatial reasoning as a fundamental weakness of current models. To investigate this gap, we present MathSpatial, a unified framework for evaluating and improving spatial reasoning in MLLMs. MathSpatial includes three complementary components: (i) MathSpatial-Bench, a benchmark of 2K problems across three categories and eleven subtypes, designed to isolate reasoning difficulty from perceptual noise; (ii) MathSpatial-Corpus, a training dataset of 8K additional problems with verified solutions; and (iii) MathSpatial-SRT, which models reasoning as structured traces composed of three atomic operations--Correlate, Constrain, and Infer. Experiments show that fine-tuning Qwen2.5-VL-7B on MathSpatial achieves competitive accuracy while reducing tokens by 25\%. MathSpatial provides the first large-scale resource that disentangles perception from reasoning, enabling precise measurement and comprehensive understanding of mathematical spatial reasoning in MLLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.