2601.15812v2 Jan 22, 2026 cs.AI

ErrorMap 및 ErrorAtlas: 대규모 언어 모델의 오류 발생 현황 분석

ErrorMap and ErrorAtlas: Charting the Failure Landscape of Large Language Models

Shir Ashury-Tahan
Shir Ashury-Tahan
Citations: 24
h-index: 2
Y. Mai
Y. Mai
Citations: 112
h-index: 4
Elron Bandel
Elron Bandel
IBM Research
Citations: 266
h-index: 9
Michal Shmueli-Scheuer
Michal Shmueli-Scheuer
Citations: 177
h-index: 6
Leshem Choshen
Leshem Choshen
Citations: 775
h-index: 13

대규모 언어 모델(LLM) 벤치마크는 모델이 언제 실패하는지 알려주지만, 왜 실패하는지는 알려주지 않습니다. 추론 데이터셋에서 잘못된 답변은 약한 추론 능력 때문이 아니라, 서식 문제, 계산 오류 또는 데이터셋의 노이즈로 인해 발생할 수 있습니다. 이러한 원인을 명확히 구분하지 않으면 벤치마크는 불완전하며 모델 개선을 신뢰성 있게 안내할 수 없습니다. 우리는 LLM 실패의 원인을 분석하는 첫 번째 방법인 ErrorMap을 소개합니다. ErrorMap은 모델의 고유한 "실패 패턴"을 추출하고, 벤치마크가 실제로 무엇을 측정하는지 명확히 하며, 오류 식별 범위를 넓혀서 놓칠 수 있는 부분을 줄입니다. 이를 통해 개발자는 모델을 디버깅하고, 벤치마크 목표와 결과를 일치시키며, 정보에 입각한 모델 선택을 지원할 수 있습니다. ErrorMap은 동일한 방식으로 모든 모델과 데이터셋에 적용할 수 있습니다. 당사 방법론을 35개의 데이터셋과 83개의 모델에 적용하여, 모델 오류의 분류 체계인 ErrorAtlas를 생성했습니다. ErrorAtlas는 LLM 연구에서 현재 과소평가되는 오류 유형, 예를 들어 출력에서 필요한 세부 정보 누락 또는 질문 오해 등을 보여줍니다. ErrorMap과 ErrorAtlas는 모델이 성공하는 부분보다 실패하는 이유에 초점을 맞춤으로써, 숨겨진 약점을 드러내고 발전을 이끌어내는 고급 평가를 가능하게 합니다. 일반적으로 작업 수준의 지표로 측정되는 성공과는 달리, 당사의 접근 방식은 모델과 작업 전반에 걸쳐 적용될 수 있는 심층적인 평가 계층을 도입하여 모델의 행동 및 한계에 대한 풍부한 통찰력을 제공합니다. 당사는 분류 체계와 코드를 공개적으로 제공하며, 새로운 벤치마크와 모델이 등장함에 따라 ErrorAtlas를 주기적으로 업데이트할 계획입니다.

Original Abstract

Large Language Models (LLM) benchmarks tell us when models fail, but not why they fail. A wrong answer on a reasoning dataset may stem from formatting issues, calculation errors, or dataset noise rather than weak reasoning. Without disentangling such causes, benchmarks remain incomplete and cannot reliably guide model improvement. We introduce ErrorMap, the first method to chart the sources of LLM failure. It extracts a model's unique "failure signature", clarifies what benchmarks measure, and broadens error identification to reduce blind spots. This helps developers debug models, aligns benchmark goals with outcomes, and supports informed model selection. ErrorMap works on any model or dataset with the same logic. Applying our method to 35 datasets and 83 models we generate ErrorAtlas, a taxonomy of model errors, revealing recurring failure patterns. ErrorAtlas highlights error types that are currently underexplored in LLM research, such as omissions of required details in the output and question misinterpretation. By shifting focus from where models succeed to why they fail, ErrorMap and ErrorAtlas enable advanced evaluation - one that exposes hidden weaknesses and directs progress. Unlike success, typically measured by task-level metrics, our approach introduces a deeper evaluation layer that can be applied globally across models and tasks, offering richer insights into model behavior and limitations. We make the taxonomy and code publicly available with plans to periodically update ErrorAtlas as new benchmarks and models emerge.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!