2601.02285v2 Jan 05, 2026 cs.CL

pdfQA: 다양한 분야, 도전적이며 현실적인 PDF 문서에 대한 질의응답

pdfQA: Diverse, Challenging, and Realistic Question Answering over PDFs

Yu Fan
Yu Fan
Citations: 24
h-index: 2
Jingwei Ni
Jingwei Ni
ETH Zürich
Citations: 379
h-index: 10
T. Schimanski
T. Schimanski
Citations: 382
h-index: 9
Imene Kolli
Imene Kolli
Citations: 0
h-index: 0
Ario Saeid Vaghefi
Ario Saeid Vaghefi
Citations: 2
h-index: 1
Elliott Ash
Elliott Ash
Citations: 21
h-index: 1
Markus Leippold
Markus Leippold
Citations: 191
h-index: 6

PDF는 HTML 다음으로 인터넷에서 두 번째로 많이 사용되는 문서 형식입니다. 그러나 기존의 질의응답 데이터셋은 주로 텍스트 기반 자료에서 출발하거나 특정 분야에 국한되는 경우가 많습니다. 본 논문에서는 pdfQA를 소개합니다. pdfQA는 10가지 복잡성 차원(예: 파일 유형, 정보 출처의 형태, 정보 출처의 위치, 답변 유형)을 기준으로 분류된, 2,000개의 사람이 직접 작성한 데이터셋(real-pdfQA)과 2,000개의 합성 데이터셋(syn-pdfQA)으로 구성되어 있습니다. 우리는 두 데이터셋 모두에 대해 품질 및 난이도 필터를 적용하여 유효하고 도전적인 질의응답 쌍을 얻었습니다. 오픈 소스 LLM을 사용하여 질문에 답변하면서, 우리가 정의한 복잡성 차원과 관련된 기존의 과제들을 파악했습니다. pdfQA는 엔드 투 엔드 질의응답 파이프라인 평가를 위한 기반을 제공하며, 다양한 기술 세트와 로컬 최적화(예: 정보 검색 또는 파싱)에 대한 테스트를 가능하게 합니다.

Original Abstract

PDFs are the second-most used document type on the internet (after HTML). Yet, existing QA datasets commonly start from text sources or only address specific domains. In this paper, we present pdfQA, a multi-domain 2K human-annotated (real-pdfQA) and 2K synthetic dataset (syn-pdfQA) differentiating QA pairs in ten complexity dimensions (e.g., file type, source modality, source position, answer type). We apply and evaluate quality and difficulty filters on both datasets, obtaining valid and challenging QA pairs. We answer the questions with open-source LLMs, revealing existing challenges that correlate with our complexity dimensions. pdfQA presents a basis for end-to-end QA pipeline evaluation, testing diverse skill sets and local optimizations (e.g., in information retrieval or parsing).

0 Citations
0 Influential
5 Altmetric
25.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!