MoDora: 트리 기반 반정형 문서 분석 시스템
MoDora: Tree-Based Semi-Structured Document Analysis System
반정형 문서는 표, 차트, 계층적 단락 등 다양한 데이터 요소가 다양한 방식으로 섞여 있고, 종종 불규칙한 레이아웃을 갖습니다. 이러한 문서는 여러 분야에서 널리 발견되며, 실제 데이터의 상당 부분을 차지합니다. 그러나 기존 방법은 자연어 질문 답변 기능을 이러한 문서에 적용하는 데 어려움을 겪는데, 이는 주로 다음과 같은 세 가지 기술적인 문제 때문입니다. (1) OCR과 같은 기술로 추출된 요소들은 종종 단편화되어 원래의 의미적 맥락을 잃어 분석에 적합하지 않습니다. (2) 기존 접근 방식은 문서 내의 계층적 구조를 효과적으로 표현하고 (예: 표를 중첩된 장 제목과 연결), 레이아웃의 특징적인 차이점을 유지하는 데 어려움을 겪습니다 (예: 사이드바와 본문 콘텐츠를 구별). (3) 질문에 답하려면 종종 여러 영역이나 페이지에 흩어져 있는 관련 정보를 검색하고 연결해야 하는데, 예를 들어 설명 단락을 문서의 다른 곳에 있는 표 셀과 연결해야 합니다. 이러한 문제를 해결하기 위해, 우리는 반정형 문서 분석을 위한 LLM 기반 시스템인 MoDora를 제안합니다. 첫째, 우리는 OCR로 파싱된 요소를 레이아웃 정보를 고려한 구성 요소로 변환하기 위해 로컬 정렬 집계 전략을 채택하고, 계층적 제목이나 텍스트가 아닌 요소가 있는 구성 요소에 대해 유형별 정보 추출을 수행합니다. 둘째, 우리는 구성 요소 간의 관계와 레이아웃 차이점을 명시적으로 모델링하기 위해 하위-상향 캐스케이드 요약 프로세스를 통해 구성 요소를 계층적으로 구성하는 구성 요소 상관 트리(CCTree)를 설계합니다. 마지막으로, 우리는 (1) 위치 기반 검색을 위한 레이아웃 기반 그리드 파티셔닝과 (2) 의미 기반 검색을 위한 LLM 기반 가지치기를 지원하는 질문 유형에 따른 검색 전략을 제안합니다. 실험 결과, MoDora는 정확도 측면에서 기존 방법보다 5.97%에서 61.07% 더 뛰어난 성능을 보였습니다. 코드의 위치는 https://github.com/weAIDB/MoDora 입니다.
Semi-structured documents integrate diverse interleaved data elements (e.g., tables, charts, hierarchical paragraphs) arranged in various and often irregular layouts. These documents are widely observed across domains and account for a large portion of real-world data. However, existing methods struggle to support natural language question answering over these documents due to three main technical challenges: (1) The elements extracted by techniques like OCR are often fragmented and stripped of their original semantic context, making them inadequate for analysis. (2) Existing approaches lack effective representations to capture hierarchical structures within documents (e.g., associating tables with nested chapter titles) and to preserve layout-specific distinctions (e.g., differentiating sidebars from main content). (3) Answering questions often requires retrieving and aligning relevant information scattered across multiple regions or pages, such as linking a descriptive paragraph to table cells located elsewhere in the document. To address these issues, we propose MoDora, an LLM-powered system for semi-structured document analysis. First, we adopt a local-alignment aggregation strategy to convert OCR-parsed elements into layout-aware components, and conduct type-specific information extraction for components with hierarchical titles or non-text elements. Second, we design the Component-Correlation Tree (CCTree) to hierarchically organize components, explicitly modeling inter-component relations and layout distinctions through a bottom-up cascade summarization process. Finally, we propose a question-type-aware retrieval strategy that supports (1) layout-based grid partitioning for location-based retrieval and (2) LLM-guided pruning for semantic-based retrieval. Experiments show MoDora outperforms baselines by 5.97%-61.07% in accuracy. The code is at https://github.com/weAIDB/MoDora.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.