2604.23276v1 Apr 25, 2026 cs.CV

경량화되고 실용적인 PDF 시각 요소 파싱

Lightweight and Production-Ready PDF Visual Element Parsing

Meizhu Liu
Meizhu Liu
Citations: 763
h-index: 13
Paul Li
Paul Li
Citations: 9
h-index: 2
Yassi Abbasi
Yassi Abbasi
Citations: 1
h-index: 1
M. Rowe
M. Rowe
Citations: 58
h-index: 2
M. Avendi
M. Avendi
Citations: 1
h-index: 1

PDF 문서에는 그림, 표, 폼과 같이 중요한 시각 요소들이 포함되어 있으며, 이러한 요소들을 정확하게 추출하는 것은 문서 이해 및 다중 모드 검색 증강 생성(RAG)에 필수적입니다. 기존 PDF 파서들은 종종 복잡한 시각 요소를 놓치거나, 의미 없는 정보(예: 워터마크, 로고)를 추출하고, 요소들을 분리하여 추출하거나, 캡션을 해당 요소와 신뢰성 있게 연결하지 못하여, 이후 검색 및 질의 응답 성능을 저하시킵니다. 본 논문에서는 시공간적 규칙, 레이아웃 분석, 그리고 의미적 유사성을 결합하여 시각 요소를 정확하게 감지하고 캡션을 연결하는 경량화되고 실용적인 PDF 파싱 프레임워크를 제시합니다. 제안된 솔루션은 인기 있는 벤치마크 데이터셋 및 내부 제품 데이터를 사용하여 $ extgreater 96%$의 시각 요소 감지 정확도와 $93%$의 캡션 연결 정확도를 달성했습니다. 다중 모드 RAG의 전처리 단계로 사용될 때, 제안된 시스템은 최첨단 파서 및 대규모 시각-언어 모델보다 내부 데이터 및 MMDocRAG 벤치마크에서 상당한 성능 향상을 보여주며, 지연 시간을 2배 이상 줄입니다. 제안된 시스템은 까다로운 실제 환경에 배포되었습니다.

Original Abstract

PDF documents contain critical visual elements such as figures, tables, and forms whose accurate extraction is essential for document understanding and multimodal retrieval-augmented generation (RAG). Existing PDF parsers often miss complex visuals, extract non-informative artifacts (e.g., watermarks, logos), produce fragmented elements, and fail to reliably associate captions with their corresponding elements, which degrades downstream retrieval and question answering. We present a lightweight and production level PDF parsing framework that can accurately detect visual elements and associates captions using a combination of spatial heuristics, layout analysis, and semantic similarity. On popular benchmark datasets and internal product data, the proposed solution achieves $\geq96\%$ visual element detection accuracy and $93\%$ caption association accuracy. When used as a preprocessing step for multimodal RAG, it significantly outperforms state-of-the-art parsers and large vision-language models on both internal data and the MMDocRAG benchmark, while reducing latency by over $2\times$. We have deployed the proposed system in challenging production environment.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!