2603.09414v1 Mar 10, 2026 cs.CV

PromptDLA: 설명적 지식을 활용한 도메인 인식 문서 레이아웃 분석 프레임워크

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

Ziru Zhang
Ziru Zhang
Citations: 0
h-index: 0
Lu Xiang
Lu Xiang
Citations: 394
h-index: 10
Yang Zhao
Yang Zhao
Citations: 380
h-index: 10
Feifei Zhai
Feifei Zhai
Citations: 47
h-index: 4
Yu Zhou
Yu Zhou
Citations: 188
h-index: 9
Chengqing Zong
Chengqing Zong
Citations: 264
h-index: 9
Yaping Zhang
Yaping Zhang
Citations: 200
h-index: 7

문서 레이아웃 분석(DLA)은 문서 인공지능의 핵심 기술이며, 최근 많은 주목을 받고 있으며, 대규모 공개 DLA 데이터셋이 증가하고 있습니다. 기존 연구에서는 DLA의 일반화 성능을 향상시키기 위해 다양한 도메인의 데이터를 결합하는 경우가 많습니다. 그러나 이러한 데이터셋을 그대로 결합하여 학습하면, 각 도메인에 내재된 다양한 레이아웃 구조를 간과하게 되어 최적의 모델 성능을 얻기 어려울 수 있습니다. 이러한 차이점에는 다양한 라벨링 방식, 문서 유형, 언어 등이 포함됩니다. 본 논문에서는 설명적 지식을 활용하여 DLA에 도메인 정보를 효과적으로 통합하는 도메인 인식 프롬프터인 PromptDLA를 소개합니다. PromptDLA는 데이터 도메인의 특정 속성에 따라 프롬프트를 맞춤 설정하는 독특한 도메인 인식 프롬프터를 특징으로 합니다. 이러한 프롬프트는 DLA가 데이터 내의 중요한 특징과 구조에 집중하도록 유도하여 모델의 다양한 도메인에 대한 일반화 능력을 향상시킵니다. 광범위한 실험 결과, 제안하는 방법이 DocLayNet, PubLayNet, M6Doc, 그리고 D$^4$LA 데이터셋에서 최첨단 성능을 달성함을 보여줍니다. 저희의 코드는 https://github.com/Zirui00/PromptDLA 에서 확인할 수 있습니다.

Original Abstract

Document Layout Analysis (DLA) is crucial for document artificial intelligence and has recently received increasing attention, resulting in an influx of large-scale public DLA datasets. Existing work often combines data from various domains in recent public DLA datasets to improve the generalization of DLA. However, directly merging these datasets for training often results in suboptimal model performance, as it overlooks the different layout structures inherent to various domains. These variations include different labeling styles, document types, and languages. This paper introduces PromptDLA, a domain-aware Prompter for Document Layout Analysis that effectively leverages descriptive knowledge as cues to integrate domain priors into DLA. The innovative PromptDLA features a unique domain-aware prompter that customizes prompts based on the specific attributes of the data domain. These prompts then serve as cues that direct the DLA toward critical features and structures within the data, enhancing the model's ability to generalize across varied domains. Extensive experiments show that our proposal achieves state-of-the-art performance among DocLayNet, PubLayNet, M6Doc, and D$^4$LA. Our code is available at https://github.com/Zirui00/PromptDLA.

0 Citations
0 Influential
28.4657359028 Altmetric
142.3 Score
Original PDF
1

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!