OCR이 필요할까? 대규모 언어 모델(MLLM) 시대의 문서 정보 추출: 실제 대규모 데이터셋을 활용한 재고찰
OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets
다중 모드 대규모 언어 모델(MLLM)은 자연어 처리의 잠재력을 향상시킵니다. 그러나 MLLM이 문서 정보 추출에 미치는 실제 영향은 아직 명확하지 않습니다. 특히, 간단하지만 MLLM만 사용하는 방식이 기존의 OCR+MLLM 방식만큼의 성능을 낼 수 있는지 불확실합니다. 본 논문에서는 실제 비즈니스 문서 정보 추출에 다양한 MLLM을 평가하는 대규모 벤치마킹 연구를 수행합니다. 오류 발생 원인을 분석하고 탐색하기 위해, 대규모 언어 모델(LLM)을 활용하여 오류 패턴을 체계적으로 진단하는 자동화된 계층적 오류 분석 프레임워크를 제안합니다. 연구 결과는 강력한 MLLM의 경우 OCR이 반드시 필요하지 않을 수 있으며, 이미지만 입력했을 때도 OCR을 사용하는 방식과 유사한 성능을 달성할 수 있음을 시사합니다. 또한, 신중하게 설계된 스키마, 예시 및 지침이 MLLM의 성능을 더욱 향상시킬 수 있음을 보여줍니다. 본 연구가 문서 정보 추출 발전에 실질적인 지침과 귀중한 통찰력을 제공할 수 있기를 바랍니다.
Multimodal Large Language Models (MLLMs) enhance the potential of natural language processing. However, their actual impact on document information extraction remains unclear. In particular, it is unclear whether an MLLM-only pipeline--while simpler--can truly match the performance of traditional OCR+MLLM setups. In this paper, we conduct a large-scale benchmarking study that evaluates various out-of-the-box MLLMs on business-document information extraction. To examine and explore failure modes, we propose an automated hierarchical error analysis framework that leverages large language models (LLMs) to diagnose error patterns systematically. Our findings suggest that OCR may not be necessary for powerful MLLMs, as image-only input can achieve comparable performance to OCR-enhanced approaches. Moreover, we demonstrate that carefully designed schema, exemplars, and instructions can further enhance MLLMs performance. We hope this work can offer practical guidance and valuable insight for advancing document information extraction.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.