ExtractBench: 복잡한 구조적 추출을 위한 벤치마크 및 평가 방법론
ExtractBench: A Benchmark and Evaluation Methodology for Complex Structured Extraction
PDF와 같은 비구조화된 문서에는 가치 있는 구조화된 정보가 포함되어 있지만, 다운스트림 시스템은 이 데이터를 신뢰할 수 있고 표준화된 형식으로 요구한다. 이러한 추출을 자동화하기 위해 LLM이 점점 더 많이 도입되고 있으며, 이에 따라 정확성과 신뢰성이 무엇보다 중요해지고 있다. 그러나 두 가지 공백으로 인해 발전이 병목 현상을 겪고 있다. 첫째, 기업 규모의 스키마 범위에서 PDF-to-JSON 추출을 평가하는 종단간(end-to-end) 벤치마크가 없다. 둘째, 중첩된 추출의 의미를 포착하는 원칙적인 방법론이 없다. 중첩된 추출 환경에서 필드는 서로 다른 정확성의 개념(식별자에 대해서는 정확한 일치, 수량에 대해서는 허용 오차, 이름에 대해서는 의미론적 동등성)을 요구하고, 배열은 정렬이 필요하며, 누락은 환각(hallucination)과 구별되어야 한다. 우리는 PDF-to-JSON 구조적 추출을 위한 오픈소스 벤치마크 및 평가 프레임워크인 ExtractBench를 통해 이 두 가지 공백을 해결한다. 이 벤치마크는 경제적으로 가치 있는 도메인 전반에 걸쳐 35개의 PDF 문서를 JSON 스키마 및 사람이 직접 주석을 단 정답 데이터(gold labels)와 결합하여, 수십 개에서 수백 개에 이르는 스키마 복잡도를 포괄하는 12,867개의 평가 가능한 필드를 산출한다. 평가 프레임워크는 스키마를 실행 가능한 명세서로 취급하여, 각 필드가 고유의 채점 지표를 선언하도록 한다. 베이스라인 평가 결과, 프론티어 모델(GPT-5/5.2, Gemini-3 Flash/Pro, Claude 4.5 Opus/Sonnet)들은 현실적인 스키마에서 여전히 신뢰할 수 없는 것으로 나타났다. 스키마의 범위가 넓어짐에 따라 성능은 급격히 저하되며, 369개 필드의 재무 보고 스키마에서는 모든 테스트 모델에 걸쳐 유효한 출력이 0%를 기록하는 결과를 보였다. 우리는 https://github.com/ContextualAI/extract-bench 에 ExtractBench를 공개한다.
Unstructured documents like PDFs contain valuable structured information, but downstream systems require this data in reliable, standardized formats. LLMs are increasingly deployed to automate this extraction, making accuracy and reliability paramount. However, progress is bottlenecked by two gaps. First, no end-to-end benchmark evaluates PDF-to-JSON extraction under enterprise-scale schema breadth. Second, no principled methodology captures the semantics of nested extraction, where fields demand different notions of correctness (exact match for identifiers, tolerance for quantities, semantic equivalence for names), arrays require alignment, and omission must be distinguished from hallucination. We address both gaps with ExtractBench, an open-source benchmark and evaluation framework for PDF-to-JSON structured extraction. The benchmark pairs 35 PDF documents with JSON Schemas and human-annotated gold labels across economically valuable domains, yielding 12,867 evaluatable fields spanning schema complexities from tens to hundreds of fields. The evaluation framework treats the schema as an executable specification: each field declares its scoring metric. Baseline evaluations reveal that frontier models (GPT-5/5.2, Gemini-3 Flash/Pro, Claude 4.5 Opus/Sonnet) remain unreliable on realistic schemas. Performance degrades sharply with schema breadth, culminating in 0% valid output on a 369-field financial reporting schema across all tested models. We release ExtractBench at https://github.com/ContextualAI/extract-bench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.