2603.14420v1 Mar 15, 2026 cs.AI

데이터 다윈주의 Part II: DataEvolve - AI가 자율적으로 사전 학습 데이터 관리를 진화시킬 수 있다

Data Darwinism Part II: DataEvolve -- AI can Autonomously Evolve Pretraining Data Curation

Chenyang Zhou
Chenyang Zhou
Citations: 0
h-index: 0
Yiwei Qin
Yiwei Qin
Citations: 478
h-index: 7
Tiantian Mi
Tiantian Mi
Citations: 7
h-index: 2
Pengfei Liu
Pengfei Liu
Citations: 100
h-index: 1
Muhang Xie
Muhang Xie
Citations: 4
h-index: 1
Dongming Shan
Dongming Shan
Citations: 4
h-index: 1
Zhen Huang
Zhen Huang
Citations: 774
h-index: 6
Yu Qiao
Yu Qiao
Citations: 178
h-index: 4
Yixiu Liu
Yixiu Liu
Citations: 352
h-index: 5

데이터 다윈주의 (Part I)는 데이터 처리의 10단계 계층 구조를 제시하며, 더 강력한 처리가 더 큰 데이터 가치를 발휘할 수 있음을 보여주었습니다. 그러나 해당 연구는 단일 범주에 대한 수동으로 설계된 전략에 의존했습니다. 현대적인 사전 학습 코퍼스는 도메인과 콘텐츠 유형을 포괄하는 수백 개의 이질적인 범주로 구성되어 있으며, 각 범주는 특수한 처리가 필요합니다. 이러한 규모에서는 수동 전략 설계가 비현실적이 됩니다. 이는 중요한 질문을 제기합니다. 전략은 자동화된 방식으로 진화할 수 있을까요? 우리는 DataEvolve라는 프레임워크를 소개합니다. DataEvolve는 수동 설계가 아닌 반복적인 최적화를 통해 전략을 진화시킬 수 있도록 합니다. 각 데이터 범주에 대해 DataEvolve는 폐쇄된 진화 루프에서 작동합니다. 즉, 품질 문제를 식별하고, 후보 전략을 생성하고, 샘플링된 데이터에 적용하고, 결과를 평가하고, 여러 세대를 거쳐 접근 방식을 개선합니다. 이 과정은 발견된 문제에 대한 경험 풀과 반복 횟수별 성능을 추적하는 전략 풀을 통해 지식을 축적합니다. Nemotron-CC에서 추출한 6720억 토큰에 이르는 8개의 범주에 DataEvolve를 적용한 결과, 30번의 반복을 통해 진화된 전략을 사용하여 5040억 토큰의 데이터 세트인 Darwin-CC가 생성되었습니다. Darwin-CC를 사용하여 30억 개의 모델을 5000억 토큰으로 학습시킨 결과, 원본 데이터보다 (+3.96 포인트) 성능이 우수했으며, 18개의 벤치마크에서 평균 44.13의 점수를 달성했습니다. 이는 DCLM, Ultra-FineWeb 및 FineWeb-Edu를 능가하는 결과입니다. 특히 지식 집약적인 작업인 MMLU에서 상당한 향상을 보였습니다. 분석 결과, 진화된 전략은 청소에 중점을 둔 접근 방식, 즉 도메인 인지적인 보존을 유지하면서 특정 노이즈 제거 및 형식 정규화를 수행하는 것으로 나타났습니다. 이는 Part I에서 제시된 L4 (생성적 개선) 원칙과 일치합니다. Ablation 연구 결과, 반복적인 진화가 필수적임을 확인했습니다. 최적화된 전략은 최적화되지 않은 전략보다 2.93 포인트 더 높은 성능을 보였으며, 이는 진화적인 전략 설계가 사전 학습 규모의 데이터 관리에 실현 가능하고 필수적임을 입증합니다.

Original Abstract

Data Darwinism (Part I) established a ten-level hierarchy for data processing, showing that stronger processing can unlock greater data value. However, that work relied on manually designed strategies for a single category. Modern pretraining corpora comprise hundreds of heterogeneous categories spanning domains and content types, each demanding specialized treatment. At this scale, manual strategy design becomes prohibitive. This raises a key question: can strategies evolve in an automated way? We introduce DataEvolve, a framework that enables strategies to evolve through iterative optimization rather than manual design. For each data category, DataEvolve operates in a closed evolutionary loop: it identifies quality issues, generates candidate strategies, executes them on sampled data, evaluates results, and refines approaches across generations. The process accumulates knowledge through an experience pool of discovered issues and a strategy pool tracking performance across iterations. Applied to 8 categories spanning 672B tokens from Nemotron-CC, DataEvolve produces Darwin-CC, a 504B-token dataset with strategies evolved through 30 iterations per category. Training 3B models on 500B tokens, Darwin-CC outperforms raw data (+3.96 points) and achieves a 44.13 average score across 18 benchmarks, surpassing DCLM, Ultra-FineWeb, and FineWeb-Edu, with strong gains on knowledge-intensive tasks such as MMLU. Analysis shows evolved strategies converge on cleaning-focused approaches: targeted noise removal and format normalization with domain-aware preservation, echoing the L4 (Generative Refinement) principles from Part I. Ablation studies confirm iterative evolution is essential: optimized strategies outperform suboptimal ones by 2.93 points, establishing evolutionary strategy design as feasible and necessary for pretraining-scale data curation.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!