TangramPuzzle: 구성적 공간 추론을 통한 다중 모드 대규모 언어 모델 평가
TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning
다중 모드 대규모 언어 모델(MLLM)은 시각 인식 및 의미 이해 분야에서 놀라운 발전을 이루었습니다. 그러나 정밀한 구성적 공간 추론 능력이 얼마나 발전했는지는 아직 충분히 연구되지 않았습니다. 기존 벤치마크는 종종 비교적 단순한 작업을 포함하며, 의미적 근사 또는 대략적인 상대적 위치에 의존하는 경향이 있습니다. 또한 평가 지표는 일반적으로 제한적이며 엄격한 수학적 정의가 부족합니다. 이러한 격차를 해소하기 위해, 고전적인 탕그램 게임의 관점에서 구성적 공간 추론 능력을 평가하도록 설계된 기하학 기반 벤치마크인 TangramPuzzle을 소개합니다. 시각적 근사의 모호성을 줄이기 위해, 탕그램 조립을 정확하고 기계적으로 검증 가능한 좌표 사양으로 연결하는 기호 기하학 프레임워크인 Tangram Construction Expression (TCE)을 제안합니다. 우리는 두 가지 상호 보완적인 작업을 설계했습니다. 첫 번째는 로컬 구성 요소로부터 전체적인 모양을 추론하는 Outline Prediction 작업이고, 두 번째는 역방향 기하학적 조립 문제를 해결해야 하는 End-to-End Code Generation 작업입니다. 최첨단 오픈 소스 및 독점 모델에 대한 광범위한 평가 실험을 통해 흥미로운 사실을 발견했습니다. MLLM은 대상 실루엣과의 일치성을 우선시하는 경향이 있으며, 기하학적 제약 조건을 무시하여 조각의 왜곡이나 변형을 초래합니다.
Multimodal Large Language Models (MLLMs) have achieved remarkable progress in visual recognition and semantic understanding. Nevertheless, their ability to perform precise compositional spatial reasoning remains largely unexplored. Existing benchmarks often involve relatively simple tasks and rely on semantic approximations or coarse relative positioning, while their evaluation metrics are typically limited and lack rigorous mathematical formulations. To bridge this gap, we introduce TangramPuzzle, a geometry-grounded benchmark designed to evaluate compositional spatial reasoning through the lens of the classic Tangram game. We propose the Tangram Construction Expression (TCE), a symbolic geometric framework that grounds tangram assemblies in exact, machine-verifiable coordinate specifications, to mitigate the ambiguity of visual approximation. We design two complementary tasks: Outline Prediction, which demands inferring global shapes from local components, and End-to-End Code Generation, which requires solving inverse geometric assembly problems. We conduct extensive evaluation experiments on advanced open-source and proprietary models, revealing an interesting insight: MLLMs tend to prioritize matching the target silhouette while neglecting geometric constraints, leading to distortions or deformations of the pieces.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.