DocSage: 다중 문서, 다중 개체 질의응답을 위한 정보 구조화 에이전트
DocSage: An Information Structuring Agent for Multi-Doc Multi-Entity Question Answering
다중 문서, 다중 개체 질의응답은 모델이 여러 문서에 흩어져 있는 다양한 개체 간의 숨겨진 논리를 추론해야 하는 복잡한 작업입니다. 그러나 기존의 대규모 언어 모델(LLM)과 검색 증강 생성(RAG) 프레임워크는 다음과 같은 중요한 한계를 가지고 있습니다. 표준 RAG의 벡터 유사성 기반의 검색은 중요한 사실을 누락하는 경우가 많고, 그래프 기반 RAG는 복잡한 관계 네트워크를 효율적으로 통합하는 데 어려움을 겪으며, 또한 모두 스키마 인식을 결여하여 문서 간 증거 연결을 제대로 구성하지 못하고 개체 간 관계를 부정확하게 추론합니다. 이러한 문제를 해결하기 위해, 우리는 동적 스키마 발견, 구조화된 정보 추출, 그리고 오류 보장 기능을 갖춘 스키마 인식 관계 추론을 통합한 엔드 투 엔드 에이전트 프레임워크인 DocSage를 제안합니다. DocSage는 세 가지 핵심 모듈로 구성됩니다. (1) 스키마 발견 모듈은 질의에 특화된 최소 연결 스키마를 동적으로 추론하여 필수적인 개체와 관계를 파악합니다. (2) 추출 모듈은 비정형 텍스트를 의미적으로 일관된 관계 테이블로 변환하며, 오류 인식 수정 메커니즘을 통해 추출 오류를 줄입니다. (3) 추론 모듈은 구조화된 테이블에 대한 다중 홉 관계 추론을 수행하며, 스키마 인식을 활용하여 문서 간 개체를 효율적으로 연결하고 증거를 통합합니다. 이러한 에이전트 설계는 다음과 같은 세 가지 주요 이점을 제공합니다. SQL 기반 인덱싱을 통한 정확한 사실 위치 파악, 관계 테이블을 통한 문서 간 개체 연결의 자연스러운 지원, 그리고 구조화된 표현을 통한 LLM의 주의 집중 분산 완화. 두 가지 MDMEQA 벤치마크에 대한 평가 결과, DocSage는 최첨단 장거리 컨텍스트 LLM과 RAG 시스템보다 훨씬 뛰어난 성능을 보이며, 정확도가 각각 27% 이상 향상되었습니다.
Multi-document Multi-entity Question Answering inherently demands models to track implicit logic between multiple entities across scattered documents. However, existing Large Language Models (LLMs) and Retrieval-Augmented Generation (RAG) frameworks suffer from critical limitations: standard RAG's vector similarity-based coarse-grained retrieval often omits critical facts, graph-based RAG fails to efficiently integrate fragmented complex relationship networks, and both lack schema awareness, leading to inadequate cross-document evidence chain construction and inaccurate entity relationship deduction. To address these challenges, we propose DocSage, an end-to-end agentic framework that integrates dynamic schema discovery, structured information extraction, and schema-aware relational reasoning with error guarantees. DocSage operates through three core modules: (1) A schema discovery module dynamically infers query-specific minimal joinable schemas to capture essential entities and relationships; (2) An extraction module transforms unstructured text into semantically coherent relational tables, enhanced by error-aware correction mechanisms to reduce extraction errors; (3) A reasoning module performs multi-hop relational reasoning over structured tables, leveraging schema awareness to efficiently align cross-document entities and aggregate evidence. This agentic design offers three key advantages: precise fact localization via SQL-powered indexing, natural support for cross-document entity joins through relational tables, and mitigated LLM attention diffusion via structured representation. Evaluations on two MDMEQA benchmarks demonstrate that DocSage significantly outperforms state-of-the-art long-context LLMs and RAG systems, achieving more than 27% accuracy improvements respectively.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.