TDATR: 테이블 세부 정보 인식 학습 및 셀 단위 시각적 정렬을 통한 엔드-투-엔드 테이블 인식 성능 향상
TDATR: Improving End-to-End Table Recognition via Table Detail-Aware Learning and Cell-Level Visual Alignment
테이블은 다양한 문서에서 널리 사용되므로, 테이블 인식(TR)은 문서 분석의 기본적인 과제입니다. 기존의 모듈식 TR 시스템은 테이블 구조와 내용을 별도로 모델링하여 최적의 통합과 복잡한 워크플로우를 초래합니다. 엔드-투-엔드 방식은 대규모 TR 데이터에 크게 의존하며, 데이터가 부족한 환경에서는 성능이 저하되는 경향이 있습니다. 이러한 문제를 해결하기 위해, 우리는 테이블 세부 정보 인식 학습과 셀 단위 시각적 정렬을 통해 엔드-투-엔드 TR의 성능을 향상시키는 TDATR (Table Detail-Aware Table Recognition)을 제안합니다. TDATR은 "인지-통합" 전략을 채택합니다. 모델은 먼저 테이블 세부 정보 인식 학습을 수행하여 여러 개의 구조 이해 및 콘텐츠 인식 작업을 통해 테이블 구조와 내용을 동시에 파악합니다. 이러한 작업은 언어 모델링 패러다임 하에서 설계되었으며, 다양한 환경의 문서 데이터를 활용하여 모델의 견고성을 향상시킬 수 있습니다. 또한, 모델은 암시적인 테이블 세부 정보를 통합하여 구조화된 HTML 출력을 생성하며, 이는 제한된 데이터로 훈련할 때 보다 효율적인 TR 모델링을 가능하게 합니다. 더욱이, 우리는 엔드-투-엔드 TR 프레임워크에 통합된 구조 지향 셀 위치 추정 모듈을 설계하여 셀을 효율적으로 찾고 시각-언어 정렬을 강화합니다. 이를 통해 TR의 해석 가능성과 정확성을 향상시킵니다. 우리는 데이터셋별 미세 조정 없이도 7개의 벤치마크에서 최첨단 또는 매우 경쟁력 있는 성능을 달성했습니다.
Tables are pervasive in diverse documents, making table recognition (TR) a fundamental task in document analysis. Existing modular TR pipelines separately model table structure and content, leading to suboptimal integration and complex workflows. End-to-end approaches rely heavily on large-scale TR data and struggle in data-constrained scenarios. To address these issues, we propose TDATR (Table Detail-Aware Table Recognition) improves end-to-end TR through table detail-aware learning and cell-level visual alignment. TDATR adopts a ``perceive-then-fuse'' strategy. The model first performs table detail-aware learning to jointly perceive table structure and content through multiple structure understanding and content recognition tasks designed under a language modeling paradigm. These tasks can naturally leverage document data from diverse scenarios to enhance model robustness. The model then integrates implicit table details to generate structured HTML outputs, enabling more efficient TR modeling when trained with limited data. Furthermore, we design a structure-guided cell localization module integrated into the end-to-end TR framework, which efficiently locates cell and strengthens vision-language alignment. It enhances the interpretability and accuracy of TR. We achieve state-of-the-art or highly competitive performance on seven benchmarks without dataset-specific fine-tuning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.