DocSeeker: 증거 기반의 구조화된 시각적 추론을 통한 장문 문서 이해
DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding
기존의 멀티모달 대규모 언어 모델(MLLM)은 문서 길이가 증가함에 따라 장문 이해 작업에서 성능 저하를 겪습니다. 이는 다음과 같은 두 가지 근본적인 문제에서 비롯됩니다. 1) 중요한 증거가 관련 없는 페이지에 묻혀 있어 신호 대 잡음비(SNR)가 낮다는 점, 그리고 2) 데이터셋이 최종적인 짧은 답변만을 제공하여 학습 신호가 약하다는 점입니다. 본 논문에서는 이러한 문제점을 해결하기 위해 모델이 구조화된 분석, 위치 추정 및 추론 워크플로우를 수행하도록 하는 새로운 패러다임을 제안합니다. 이러한 기능을 구현하기 위해, 우리는 두 단계의 학습 프레임워크를 설계했습니다. 먼저, 효율적인 지식 증류 전략을 통해 생성된 고품질 데이터에 대해 지도 미세 조정을 수행합니다. 그 후, 증거 인식 그룹 상대 정책 최적화(Evidence-aware Group Relative Policy Optimization)를 사용하여 증거 위치 추정과 답변 정확도를 동시에 최적화합니다. 또한, 다중 페이지 문서 학습 시 발생하는 메모리 제약 문제를 완화하기 위해 증거 기반의 해상도 할당 전략을 도입했습니다. 광범위한 실험 결과, DocSeeker는 도메인 내 및 도메인 외 작업 모두에서 우수한 성능을 달성함을 보여줍니다. 또한, DocSeeker는 짧은 페이지로 학습된 내용을 기반으로 매우 긴 문서에 대해 안정적으로 일반화될 수 있으며, 시각적 검색 증강 생성 시스템과 자연스럽게 연계되어 해당 시스템 구현을 위한 견고한 기반을 제공합니다.
Existing Multimodal Large Language Models (MLLMs) suffer from significant performance degradation on the long document understanding task as document length increases. This stems from two fundamental challenges: 1) a low Signal-to-Noise Ratio (SNR), with crucial evidence buried in irrelevant pages; and 2) supervision scarcity, as datasets offering only final short answers provide a weak learning signal. In this paper, we address these challenges by proposing a paradigm that requires the model to execute a structured Analysis, Localization and Reasoning workflow. To instill this capability, we design a two-stage training framework: we first perform Supervised Fine-Tuning on high-quality data generated via an efficient knowledge distillation strategy. Subsequently, we employ an Evidence-aware Group Relative Policy Optimization which jointly optimizes for both evidence localization and answer accuracy. Additionally, we introduce a Evidence-Guided Resolution Allocation strategy to mitigate memory constraints of training on multi-pages documents. Extensive experiments demonstrate that DocSeeker achieves superior performance on both in-domain and out-of-domain tasks. We show it robustly generalizes from short-page training to ultra-long documents and is naturally synergistic with visual Retrieval-Augmented Generation systems, serving as a solid foundation for their implementation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.