2603.14420v1 Mar 15, 2026 cs.AI

데이터 다윈주의 Part II: DataEvolve - AI가 자율적으로 사전 학습 데이터 관리를 진화시킬 수 있다

Data Darwinism Part II: DataEvolve -- AI can Autonomously Evolve Pretraining Data Curation

Chenyang Zhou
Chenyang Zhou
Citations: 7
h-index: 2
Yiwei Qin
Yiwei Qin
Citations: 537
h-index: 7
Tiantian Mi
Tiantian Mi
Citations: 25
h-index: 3
Pengfei Liu
Pengfei Liu
Citations: 137
h-index: 2
Muhang Xie
Muhang Xie
Citations: 7
h-index: 1
Dongming Shan
Dongming Shan
Citations: 8
h-index: 1
Zhen Huang
Zhen Huang
Citations: 870
h-index: 6
Yu Qiao
Yu Qiao
Citations: 249
h-index: 5
Yixiu Liu
Yixiu Liu
Citations: 393
h-index: 6

데이터 다윈주의 (Part I)는 데이터 처리의 10단계 계층 구조를 제시하며, 더 강력한 처리가 더 큰 데이터 가치를 발휘할 수 있음을 보여주었습니다. 그러나 해당 연구는 단일 범주에 대한 수동으로 설계된 전략에 의존했습니다. 현대적인 사전 학습 코퍼스는 도메인과 콘텐츠 유형을 포괄하는 수백 개의 이질적인 범주로 구성되어 있으며, 각 범주는 특수한 처리가 필요합니다. 이러한 규모에서는 수동 전략 설계가 비현실적이 됩니다. 이는 중요한 질문을 제기합니다. 전략은 자동화된 방식으로 진화할 수 있을까요? 우리는 DataEvolve라는 프레임워크를 소개합니다. DataEvolve는 수동 설계가 아닌 반복적인 최적화를 통해 전략을 진화시킬 수 있도록 합니다. 각 데이터 범주에 대해 DataEvolve는 폐쇄된 진화 루프에서 작동합니다. 즉, 품질 문제를 식별하고, 후보 전략을 생성하고, 샘플링된 데이터에 적용하고, 결과를 평가하고, 여러 세대를 거쳐 접근 방식을 개선합니다. 이 과정은 발견된 문제에 대한 경험 풀과 반복 횟수별 성능을 추적하는 전략 풀을 통해 지식을 축적합니다. Nemotron-CC에서 추출한 6720억 토큰에 이르는 8개의 범주에 DataEvolve를 적용한 결과, 30번의 반복을 통해 진화된 전략을 사용하여 5040억 토큰의 데이터 세트인 Darwin-CC가 생성되었습니다. Darwin-CC를 사용하여 30억 개의 모델을 5000억 토큰으로 학습시킨 결과, 원본 데이터보다 (+3.96 포인트) 성능이 우수했으며, 18개의 벤치마크에서 평균 44.13의 점수를 달성했습니다. 이는 DCLM, Ultra-FineWeb 및 FineWeb-Edu를 능가하는 결과입니다. 특히 지식 집약적인 작업인 MMLU에서 상당한 향상을 보였습니다. 분석 결과, 진화된 전략은 청소에 중점을 둔 접근 방식, 즉 도메인 인지적인 보존을 유지하면서 특정 노이즈 제거 및 형식 정규화를 수행하는 것으로 나타났습니다. 이는 Part I에서 제시된 L4 (생성적 개선) 원칙과 일치합니다. Ablation 연구 결과, 반복적인 진화가 필수적임을 확인했습니다. 최적화된 전략은 최적화되지 않은 전략보다 2.93 포인트 더 높은 성능을 보였으며, 이는 진화적인 전략 설계가 사전 학습 규모의 데이터 관리에 실현 가능하고 필수적임을 입증합니다.

Original Abstract

Data Darwinism (Part I) established a ten-level hierarchy for data processing, showing that stronger processing can unlock greater data value. However, that work relied on manually designed strategies for a single category. Modern pretraining corpora comprise hundreds of heterogeneous categories spanning domains and content types, each demanding specialized treatment. At this scale, manual strategy design becomes prohibitive. This raises a key question: can strategies evolve in an automated way? We introduce DataEvolve, a framework that enables strategies to evolve through iterative optimization rather than manual design. For each data category, DataEvolve operates in a closed evolutionary loop: it identifies quality issues, generates candidate strategies, executes them on sampled data, evaluates results, and refines approaches across generations. The process accumulates knowledge through an experience pool of discovered issues and a strategy pool tracking performance across iterations. Applied to 8 categories spanning 672B tokens from Nemotron-CC, DataEvolve produces Darwin-CC, a 504B-token dataset with strategies evolved through 30 iterations per category. Training 3B models on 500B tokens, Darwin-CC outperforms raw data (+3.96 points) and achieves a 44.13 average score across 18 benchmarks, surpassing DCLM, Ultra-FineWeb, and FineWeb-Edu, with strong gains on knowledge-intensive tasks such as MMLU. Analysis shows evolved strategies converge on cleaning-focused approaches: targeted noise removal and format normalization with domain-aware preservation, echoing the L4 (Generative Refinement) principles from Part I. Ablation studies confirm iterative evolution is essential: optimized strategies outperform suboptimal ones by 2.93 points, establishing evolutionary strategy design as feasible and necessary for pretraining-scale data curation.

1 Citations
0 Influential
3.5 Altmetric
18.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!