2601.15628v1 Jan 22, 2026 cs.AI

CogToM: 거대언어모델을 위해 인간 인지에서 영감을 받은 포괄적 마음 이론 벤치마크

CogToM: A Comprehensive Theory of Mind Benchmark inspired by Human Cognition for Large Language Models

Haibo Tong
Haibo Tong
Citations: 18
h-index: 3
Zeyang Yue
Zeyang Yue
Citations: 3
h-index: 1
Erliang Lin
Erliang Lin
Citations: 2
h-index: 1
Ruolin Chen
Ruolin Chen
Citations: 4
h-index: 1
Yinqian Sun
Yinqian Sun
Citations: 234
h-index: 7
Yi Zeng
Yi Zeng
Citations: 2
h-index: 1
Feifei Zhao
Feifei Zhao
Citations: 571
h-index: 13
Lu Jia
Lu Jia
Citations: 2
h-index: 1
Qian Zhang
Qian Zhang
Citations: 349
h-index: 10

거대언어모델(LLM)이 진정으로 인간과 유사한 마음 이론(ToM) 능력을 갖추고 있는지에 대한 관심이 점점 높아지고 있습니다. 그러나 기존 벤치마크는 주로 틀린 믿음(false belief) 과제와 같은 좁은 패러다임에 국한되어 있어, 인간 인지 메커니즘의 전체 스펙트럼을 포착하지 못하고 있습니다. 우리는 49명의 인간 어노테이터가 검증하고 46개 패러다임에 걸친 8,000개 이상의 이중 언어 인스턴스로 구성된, 이론적 근거를 갖춘 포괄적 벤치마크인 CogToM을 소개합니다. GPT-5.1 및 Qwen3-Max와 같은 프런티어 모델을 포함한 22개 대표 모델에 대한 체계적인 평가는 상당한 성능 이질성을 드러내며, 특정 차원에서 지속적인 병목 현상이 있음을 강조합니다. 인간 인지 패턴에 기반한 추가 분석은 LLM과 인간 인지 구조 간의 잠재적인 괴리를 시사합니다. CogToM은 진화하는 LLM의 인지 경계를 조사하기 위한 견고한 도구와 관점을 제공합니다.

Original Abstract

Whether Large Language Models (LLMs) truly possess human-like Theory of Mind (ToM) capabilities has garnered increasing attention. However, existing benchmarks remain largely restricted to narrow paradigms like false belief tasks, failing to capture the full spectrum of human cognitive mechanisms. We introduce CogToM, a comprehensive, theoretically grounded benchmark comprising over 8000 bilingual instances across 46 paradigms, validated by 49 human annotator.A systematic evaluation of 22 representative models, including frontier models like GPT-5.1 and Qwen3-Max, reveals significant performance heterogeneities and highlights persistent bottlenecks in specific dimensions. Further analysis based on human cognitive patterns suggests potential divergences between LLM and human cognitive structures. CogToM offers a robust instrument and perspective for investigating the evolving cognitive boundaries of LLMs.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!