SenseMath: LLM은 숫자에 대한 이해력을 가지고 있는가? 단축 전략 사용, 판단, 생성 능력 평가
SenseMath: Do LLMs Have Number Sense? Evaluating Shortcut Use, Judgment, and Generation
대규모 언어 모델(LLM)은 종종 효율적인 숫자 단축 전략이 존재함에도 불구하고, 단계별 계산 방식을 기본적으로 사용합니다. 이는 다음과 같은 근본적인 질문을 제기합니다. LLM은 인간과 유사한 방식으로 숫자 구조를 인식하고, 적절한 경우 단축 전략을 적용하며, 부적절한 경우 이를 회피하는 '숫자에 대한 이해력'을 가지고 있는가? 본 연구에서는 LLM의 구조 민감적인 숫자 추론 능력을 평가하기 위한 제어된 벤치마크인 SenseMath를 소개합니다. SenseMath는 8가지 단축 전략 범주와 4가지 자릿수 범위를 포괄하는 4,800개의 항목으로 구성되어 있으며, 강력한 단축 전략, 약한 단축 전략, 그리고 제어 그룹의 변형을 포함합니다. SenseMath는 인지적 요구 수준이 점진적으로 증가하는 세 가지 평가 환경을 지원합니다. 첫째, '단축 전략 사용'은 모델이 단축 전략이 적용 가능한 문제에 대해 실제로 단축 전략을 적용할 수 있는지 평가합니다. 둘째, '적용 가능성 판단'은 모델이 단축 전략이 적절한지 또는 오해를 불러일으키는지 인식할 수 있는지 평가합니다. 셋째, '문제 생성'은 모델이 주어진 유형의 단축 전략을 정확하게 활용할 수 있는 새로운 문제 항목을 생성할 수 있는지 평가합니다. GPT-4o-mini부터 Llama-3.1-8B까지 5가지 LLM을 대상으로 실시한 평가 결과, 일관된 패턴이 나타났습니다. 명시적으로 지시를 받았을 때, 모델은 단축 전략을 쉽게 채택하고 단축 전략이 적용 가능한 항목에서 상당한 정확도 향상(최대 15%)을 달성했습니다. 그러나 표준적인 연쇄적 사고(chain-of-thought) 프롬프트를 사용할 경우, 모델은 전체 경우의 40% 미만에서 이러한 전략을 자발적으로 사용하며, 심지어 필요한 능력을 가지고 있음에도 불구하고 이를 사용하는 경우가 드뭅니다. 더욱이, 이러한 능력은 '사용' 단계에만 국한됩니다. 모델은 단축 전략이 적용되지 않는 문제에 대해 단축 전략을 과도하게 일반화하는 경향이 있으며, 단축 전략을 포함하는 유효한 문제를 처음부터 생성하는 데 실패합니다. 이러한 결과들을 종합적으로 고려할 때, 현재의 LLM은 인간의 숫자 이해력의 근간이 되는 '언제, 왜 단축 전략이 효과적인지'에 대한 구조적 이해 없이, 절차적인 단축 전략 활용 능력을 보이는 것으로 판단됩니다.
Large language models often default to step-by-step computation even when efficient numerical shortcuts are available. This raises a basic question: do they exhibit number sense in a human-like behavioral sense, i.e., the ability to recognize numerical structure, apply shortcuts when appropriate, and avoid them when they are not? We introduce SenseMath, a controlled benchmark for evaluating structure-sensitive numerical reasoning in LLMs. SenseMath contains 4,800 items spanning eight shortcut categories and four digit scales, with matched strong-shortcut, weak-shortcut, and control variants. It supports three evaluation settings of increasing cognitive demand: Shortcut Use (whether models can apply shortcuts on shortcut-amenable problems); Applicability Judgment (whether they can recognize when a shortcut is appropriate or misleading); and Problem Generation (whether they can generate new problem items that correctly admit a given type of shortcut). Our evaluation across five LLMs, ranging from GPT-4o-mini to Llama-3.1-8B, shows a consistent pattern: when explicitly prompted, models readily adopt shortcut strategies and achieve substantial accuracy gains on shortcut-amenable items (up to 15%), yet under standard chain-of-thought prompting they spontaneously employ such strategies in fewer than 40% of cases, even when they demonstrably possess the requisite capability. Moreover, this competence is confined to the Use level; models systematically over-generalise shortcuts to problems where they do not apply, and fail to generate valid shortcut-bearing problems from scratch. Together, these results suggest that current LLMs exhibit procedural shortcut fluency without the structural understanding of when and why shortcuts work that underlies human number sense.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.