TangramSR: 비전-언어 모델은 연속적인 기하학적 공간에서 추론할 수 있는가?
TangramSR: Can Vision-Language Models Reason in Continuous Geometric Space?
인간은 정신적 회전, 반복적 개선, 시각적 피드백을 포함하는 인지 과정을 통해 칠교(Tangram) 퍼즐 조립과 같은 공간 추론 과제에 뛰어난 능력을 보입니다. 인간이 시행착오, 관찰, 수정을 통해 칠교 퍼즐을 해결하는 방식에서 영감을 받아, 본 연구는 이러한 인간의 인지 메커니즘을 모델링한 프레임워크를 설계했습니다. 그러나 5개의 대표적인 비전-언어 모델(VLM)을 대상으로 한 포괄적인 실험 결과, 연속적인 기하학적 추론에서 구조적인 한계가 드러났습니다. 단일 조각 과제에서는 평균 IoU가 0.41에 불과했고, 두 조각 구성에서는 0.23으로 하락했는데, 이는 어린아이들도 칠교 과제를 성공적으로 완수하는 인간의 수행 능력에 훨씬 못 미치는 수준입니다. 본 논문은 자기 개선 AI의 근본적인 과제인 '모델이 파라미터 업데이트 없이 테스트 시점에 예측을 반복적으로 개선할 수 있는가?'를 다룹니다. 우리는 인간의 인지 과정에서 착안하여 문맥 내 학습(ICL)과 보상 기반 피드백 루프를 결합한 테스트 타임 자기 개선 프레임워크를 소개합니다. 별도의 학습이 필요 없는 우리의 검증기-개선기 에이전트(verifier-refiner agent)는 기하학적 일관성 피드백을 기반으로 예측을 반복적으로 자기 개선하는 재귀적 개선 루프를 적용하며, 모델 재학습 없이 중간 크기 삼각형 예제에서 IoU를 0.63에서 0.932로 향상시켰습니다. 이는 ICL과 보상 루프를 통해 인간에게서 영감을 받은 반복적 개선 메커니즘을 통합하는 것이 VLM의 기하학적 추론 능력을 대폭 향상시킬 수 있음을 입증하며, 연속 공간 도메인에서 자기 개선 AI를 단순한 가능성에서 실질적인 구현 단계로 발전시킵니다. 본 연구는 다음 익명 링크에서 확인 가능합니다 https://anonymous.4open.science/r/TangramVLM-F582/.
Humans excel at spatial reasoning tasks like Tangram puzzle assembly through cognitive processes involving mental rotation, iterative refinement, and visual feedback. Inspired by how humans solve Tangram puzzles through trial-and-error, observation, and correction, we design a framework that models these human cognitive mechanisms. However, comprehensive experiments across five representative Vision-Language Models (VLMs) reveal systematic failures in continuous geometric reasoning: average IoU of only 0.41 on single-piece tasks, dropping to 0.23 on two-piece composition, far below human performance where children can complete Tangram tasks successfully. This paper addresses a fundamental challenge in self-improving AI: can models iteratively refine their predictions at test time without parameter updates? We introduce a test-time self-refinement framework that combines in-context learning (ICL) with reward-guided feedback loops, inspired by human cognitive processes. Our training-free verifier-refiner agent applies recursive refinement loops that iteratively self-refine predictions based on geometric consistency feedback, achieving IoU improvements from 0.63 to 0.932 on medium-triangle cases without any model retraining. This demonstrates that incorporating human-inspired iterative refinement mechanisms through ICL and reward loops can substantially enhance geometric reasoning in VLMs, moving self-improving AI from promise to practice in continuous spatial domains. Our work is available at this anonymous link https://anonymous.4open.science/r/TangramVLM-F582/.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.