2602.10416v1 Feb 11, 2026 cs.LG

AI-산술: 인공지능의 산술 능력 연구

AI-rithmetic

A. Bie
A. Bie
Citations: 0
h-index: 0
Travis Dick
Travis Dick
Citations: 0
h-index: 0
A. Kulesza
A. Kulesza
Citations: 0
h-index: 0
Prabhakar Raghavan
Prabhakar Raghavan
Citations: 0
h-index: 0
V. Raman
V. Raman
Citations: 0
h-index: 0
Sergei Vassilvitskii
Sergei Vassilvitskii
Citations: 3,380
h-index: 6

최근 인공지능 시스템은 국제 수학 경시대회에서 수상, 연구 워크플로우 지원, 새로운 기술적 정리 증명 등 다양한 분야에서 성공적인 성과를 거두고 있습니다. 하지만 이러한 발전에도 불구하고, 인공지능은 여전히 기본적인 산술 연산, 특히 두 숫자를 더하는 간단한 작업에서 심각한 오류를 보이는 경향이 있습니다. 본 연구에서는 이러한 현상에 대한 체계적인 조사를 수행했습니다. 실험 결과, 최첨단 모델들이 숫자 자릿수가 증가함에 따라 정수 덧셈 연산에서 상당한 정확도 저하를 겪는다는 것을 확인했습니다. 또한, 이러한 모델들이 발생하는 대부분의 오류는 해석 가능하며, 피연산자 정렬 오류 또는 올바른 자리 올림 처리 실패로 인해 발생한다는 것을 보여주었습니다. 이러한 두 가지 오류 유형은 각각 Claude Opus 4.1, GPT-5, Gemini 2.5 Pro 모델의 오류의 87.9%, 62.9%, 92.4%를 설명합니다. 마지막으로, 정렬 오류는 토큰화 과정과 자주 관련되어 있으며, 자리 올림 오류는 대부분 독립적인 무작위 오류로 나타나는 것을 확인했습니다.

Original Abstract

Modern AI systems have been successfully deployed to win medals at international math competitions, assist with research workflows, and prove novel technical lemmas. However, despite their progress at advanced levels of mathematics, they remain stubbornly bad at basic arithmetic, consistently failing on the simple task of adding two numbers. We present a systematic investigation of this phenomenon. We demonstrate empirically that all frontier models suffer significantly degraded accuracy for integer addition as the number of digits increases. Furthermore, we show that most errors made by these models are highly interpretable and can be attributed to either operand misalignment or a failure to correctly carry; these two error classes explain 87.9%, 62.9%, and 92.4% of Claude Opus 4.1, GPT-5, and Gemini 2.5 Pro errors, respectively. Finally, we show that misalignment errors are frequently related to tokenization, and that carrying errors appear largely as independent random failures.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!