2601.12318v1 Jan 18, 2026 cs.AI

인간 주석을 넘어서: 문서 지능을 위한 데이터 생성 방법의 최신 동향

Beyond Human Annotation: Recent Advances in Data Generation Methods for Document Intelligence

Dehao Ying
Dehao Ying
Citations: 3
h-index: 1
Fengchang Yu
Fengchang Yu
Citations: 46
h-index: 4
Haihua Chen
Haihua Chen
Citations: 62
h-index: 5
Changjiang Jiang
Changjiang Jiang
Citations: 14
h-index: 2
Yurong Li
Yurong Li
Citations: 2
h-index: 1
Wei Lu
Wei Lu
Citations: 19
h-index: 2

문서 지능(DI)의 발전은 대규모 고품질 학습 데이터를 요구하지만, 수동 주석 작업은 여전히 심각한 병목 현상으로 남아 있다. 데이터 생성 방법론이 급격히 발전하고 있음에도 불구하고, 기존의 조사 연구들은 단일 모달리티나 특정 작업에만 파편화된 초점을 맞추고 있어, 실제 워크플로우와 연계된 통합적 관점이 결여되어 있다. 이러한 간극을 메우기 위해, 본 조사는 DI 분야의 데이터 생성을 위한 최초의 포괄적인 기술 지도를 구축한다. 데이터 생성을 '지도 신호 생산'으로 재정의하고, '데이터와 레이블의 가용성'에 기반한 새로운 분류 체계를 도입한다. 이 프레임워크는 방법론들을 데이터 증강, 제로 베이스 데이터 생성, 자동 데이터 주석, 자기 지도 신호 구축이라는 네 가지 자원 중심 패러다임으로 조직화한다. 또한, 내재적 품질과 외재적 유용성을 통합하는 다층적 평가 프레임워크를 수립하여, 다양한 DI 벤치마크 전반에 걸친 성능 향상 결과를 종합한다. 이러한 통합적 구조를 바탕으로 방법론적 지형을 분석하여, 충실도 격차와 같은 중요 과제와 공진화 생태계를 포함한 최신 개척 분야를 규명한다. 궁극적으로, 파편화된 이 분야를 체계화함으로써 데이터 생성을 차세대 DI의 핵심 엔진으로 자리매김한다.

Original Abstract

The advancement of Document Intelligence (DI) demands large-scale, high-quality training data, yet manual annotation remains a critical bottleneck. While data generation methods are evolving rapidly, existing surveys are constrained by fragmented focuses on single modalities or specific tasks, lacking a unified perspective aligned with real-world workflows. To fill this gap, this survey establishes the first comprehensive technical map for data generation in DI. Data generation is redefined as supervisory signal production, and a novel taxonomy is introduced based on the "availability of data and labels." This framework organizes methodologies into four resource-centric paradigms: Data Augmentation, Data Generation from Scratch, Automated Data Annotation, and Self-Supervised Signal Construction. Furthermore, a multi-level evaluation framework is established to integrate intrinsic quality and extrinsic utility, compiling performance gains across diverse DI benchmarks. Guided by this unified structure, the methodological landscape is dissected to reveal critical challenges such as fidelity gaps and frontiers including co-evolutionary ecosystems. Ultimately, by systematizing this fragmented field, data generation is positioned as the central engine for next-generation DI.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!