맥락은 결코 충분하지 않다: 대규모 문서 집합에 대한 확장 가능한 질의 응답을 위한 구조화된 추론
Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets
실제 문서 기반 질의 응답은 매우 어려운 과제입니다. 분석가는 여러 문서와 각 문서의 다양한 부분에 흩어져 있는 증거들을 종합해야 합니다. 하지만 문서 컬렉션이 증가함에 따라, 고정된 LLM 컨텍스트 창 용량을 초과하는 경우가 발생합니다. 일반적인 해결책은 문서를 덩어리로 나누고 각 덩어리에서 얻은 결과를 결합하는 것이지만, 이는 집계 병목 현상을 야기합니다. 덩어리의 수가 증가함에 따라 시스템은 여전히 점점 더 많은 양의 추출된 증거를 결합하고 추론해야 합니다. 본 논문에서는 구조화된 추론을 통해 대규모 문서 집합에 대한 질의 응답을 가능하게 하는 프레임워크인 SLIDERS를 제시합니다. SLIDERS는 중요한 정보를 관계형 데이터베이스로 추출하여, 연결된 텍스트 대신 SQL을 통해 지속적인 구조화된 상태에 대한 확장 가능한 추론을 가능하게 합니다. SLIDERS는 로컬로 추출된 표현을 전역적으로 일관성 있게 만들기 위해 데이터 조정 단계를 도입합니다. 이 단계는 출처, 추출 이유 및 메타데이터를 활용하여 중복, 불일치 및 불완전한 레코드를 감지하고 수정합니다. SLIDERS는 세 가지 기존의 장문 컨텍스트 벤치마크에서 모든 기본 모델보다 뛰어난 성능을 보였으며, 모든 벤치마크가 강력한 기본 LLM의 컨텍스트 창 내에 포함되었음에도 불구하고, 평균적으로 GPT-4.1보다 6.6점 더 높은 성능을 보였습니다. 또한, SLIDERS는 3.9M 및 36M 토큰의 두 개의 새로운 벤치마크에서 다음으로 좋은 기본 모델보다 각각 약 19점 및 32점 더 높은 성능을 보였습니다.
Real-world document question answering is challenging. Analysts must synthesize evidence across multiple documents and different parts of each document. However, any fixed LLM context window can be exceeded as document collections grow. A common workaround is to decompose documents into chunks and assemble answers from chunk-level outputs, but this introduces an aggregation bottleneck: as the number of chunks grows, systems must still combine and reason over an increasingly large body of extracted evidence. We present SLIDERS, a framework for question answering over long document collections through structured reasoning. SLIDERS extracts salient information into a relational database, enabling scalable reasoning over persistent structured state via SQL rather than concatenated text. To make this locally extracted representation globally coherent, SLIDERS introduces a data reconciliation stage that leverages provenance, extraction rationales, and metadata to detect and repair duplicated, inconsistent, and incomplete records. SLIDERS outperforms all baselines on three existing long-context benchmarks, despite all of them fitting within the context window of strong base LLMs, exceeding GPT-4.1 by 6.6 points on average. It also improves over the next best baseline by ~19 and ~32 points on two new benchmarks at 3.9M and 36M tokens, respectively.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.