다중 모드 대규모 언어 모델의 이산 기호 이해에 대한 인지적 불일치
Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding
다중 모드 대규모 언어 모델(MLLM)은 자연 장면 해석에서 놀라운 성공을 거두었지만, 인간 인지의 기본 구성 요소인 이산 기호를 처리하는 능력은 여전히 중요한 과제로 남아 있습니다. 연속적인 시각 데이터와 달리, 수학 공식, 화학 구조, 언어 문자 등과 같은 기호는 정밀하고 깊이 있는 해석을 요구합니다. 본 논문에서는 최상위 MLLM이 언어, 문화, 수학, 물리학, 화학의 다섯 가지 영역에서 이러한 "이산 의미 공간"을 어떻게 처리하는지 평가하기 위한 종합적인 벤치마크를 소개합니다. 우리의 연구는 직관에 어긋나는 현상을 밝혀냅니다. 모델은 종종 기본적인 기호 인식에서 실패하지만, 복잡한 추론 작업에서는 성공하는 경향이 있는데, 이는 모델이 진정한 시각적 인식보다는 언어적 확률에 의존한다는 것을 시사합니다. 이러한 "인지적 불일치"를 드러냄으로써, 현재 AI 기술의 중요한 격차를 강조합니다. 즉, 과학적 발견과 추상적 사고를 뒷받침하는 상징적 언어를 진정으로 인식하고 이해하는 데 어려움을 겪는다는 것입니다. 본 연구는 더욱 엄격하고 인간과 조화를 이루는 지능형 시스템을 개발하기 위한 로드맵을 제시합니다.
While Multimodal Large Language Models (MLLMs) have achieved remarkable success in interpreting natural scenes, their ability to process discrete symbols -- the fundamental building blocks of human cognition -- remains a critical open question. Unlike continuous visual data, symbols such as mathematical formulas, chemical structures, and linguistic characters require precise, deeper interpretation. This paper introduces a comprehensive benchmark to evaluate how top-tier MLLMs navigate these "discrete semantic spaces" across five domains: language, culture, mathematics, physics, and chemistry. Our investigation uncovers a counterintuitive phenomenon: models often fail at basic symbol recognition yet succeed in complex reasoning tasks, suggesting they rely on linguistic probability rather than true visual perception. By exposing this "cognitive mismatch", we highlight a significant gap in current AI capabilities: the struggle to truly perceive and understand the symbolic languages that underpin scientific discovery and abstract thought. This work offers a roadmap for developing more rigorous, human-aligned intelligent systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.