ErrorMap과 ErrorAtlas: 대규모 언어 모델의 실패 지형도 매핑
ErrorMap and ErrorAtlas: Charting the Failure Landscape of Large Language Models
대규모 언어 모델(LLM) 벤치마크는 모델이 언제 실패하는지는 알려주지만, 왜 실패하는지는 알려주지 않습니다. 추론 데이터셋에서의 오답은 취약한 추론 능력보다는 형식 문제, 계산 오류, 또는 데이터셋의 노이즈에서 기인할 수 있습니다. 이러한 원인들을 구분하지 않으면, 벤치마크는 불완전한 상태로 남으며 모델 개선을 신뢰성 있게 안내할 수 없습니다. 우리는 LLM 실패의 원인을 도식화하는 최초의 방법론인 ErrorMap을 소개합니다. 이는 모델 고유의 "실패 서명(failure signature)"을 추출하고, 벤치마크가 무엇을 측정하는지 명확히 하며, 오류 식별 범위를 확장하여 사각지대를 줄입니다. 이는 개발자가 모델을 디버깅하는 것을 돕고, 벤치마크의 목표와 결과를 일치시키며, 정보에 입각한 모델 선택을 지원합니다. ErrorMap은 동일한 로직으로 어떤 모델이나 데이터셋에서도 작동합니다. 우리의 방법을 35개의 데이터셋과 83개의 모델에 적용하여 모델 오류의 분류 체계인 ErrorAtlas를 생성하고, 반복되는 실패 패턴을 밝혀냈습니다. ErrorAtlas는 출력 시 필수 세부 정보 누락이나 질문 오해석과 같이 현재 LLM 연구에서 충분히 탐구되지 않은 오류 유형들을 강조합니다. 모델이 어디서 성공하는지에서 왜 실패하는지로 초점을 옮김으로써, ErrorMap과 ErrorAtlas는 숨겨진 약점을 드러내고 발전을 이끄는 진보된 평가를 가능하게 합니다. 일반적으로 작업 수준의 지표로 측정되는 성공 여부와 달리, 우리의 접근 방식은 모델과 작업 전반에 걸쳐 포괄적으로 적용될 수 있는 더 깊은 평가 계층을 도입하여, 모델의 동작과 한계에 대한 더 풍부한 통찰력을 제공합니다. 우리는 분류 체계와 코드를 공개하며, 새로운 벤치마크와 모델이 등장함에 따라 ErrorAtlas를 주기적으로 업데이트할 계획입니다.
Large Language Models (LLM) benchmarks tell us when models fail, but not why they fail. A wrong answer on a reasoning dataset may stem from formatting issues, calculation errors, or dataset noise rather than weak reasoning. Without disentangling such causes, benchmarks remain incomplete and cannot reliably guide model improvement. We introduce ErrorMap, the first method to chart the sources of LLM failure. It extracts a model's unique "failure signature", clarifies what benchmarks measure, and broadens error identification to reduce blind spots. This helps developers debug models, aligns benchmark goals with outcomes, and supports informed model selection. ErrorMap works on any model or dataset with the same logic. Applying our method to 35 datasets and 83 models we generate ErrorAtlas, a taxonomy of model errors, revealing recurring failure patterns. ErrorAtlas highlights error types that are currently underexplored in LLM research, such as omissions of required details in the output and question misinterpretation. By shifting focus from where models succeed to why they fail, ErrorMap and ErrorAtlas enable advanced evaluation - one that exposes hidden weaknesses and directs progress. Unlike success, typically measured by task-level metrics, our approach introduces a deeper evaluation layer that can be applied globally across models and tasks, offering richer insights into model behavior and limitations. We make the taxonomy and code publicly available with plans to periodically update ErrorAtlas as new benchmarks and models emerge.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.