2602.07824v1 Feb 08, 2026 cs.AI

데이터 다윈주의 1부: 사전 학습을 위한 과학 데이터의 가치 잠금 해제

Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training

Weiye Si
Weiye Si
Citations: 17
h-index: 3
Yiwei Qin
Yiwei Qin
Citations: 475
h-index: 7
Tiantian Mi
Tiantian Mi
Citations: 7
h-index: 2
Pengfei Liu
Pengfei Liu
Citations: 98
h-index: 1
Chenyang Zhou
Chenyang Zhou
Citations: 38
h-index: 4
Qipeng Guo
Qipeng Guo
Citations: 13
h-index: 2
Siyuan Feng
Siyuan Feng
Citations: 73
h-index: 6
Zhen Huang
Zhen Huang
Citations: 65
h-index: 3

데이터 품질은 파운데이션 모델의 성능을 결정짓지만, 체계적인 데이터 처리 프레임워크는 여전히 부족합니다. 본 논문에서는 데이터와 모델의 공진화를 개념화한 10단계 분류 체계(L0-L9)인 '데이터 다윈주의(Data Darwinism)'를 소개합니다. 이는 고도화된 모델이 차세대 시스템을 위한 더 우수한 데이터를 생성한다는 개념입니다. 우리는 9,000억(900B) 토큰 규모의 코퍼스인 Darwin-Science(L0-L5)를 구축하여 과학 문헌을 대상으로 이를 검증했습니다. 우리는 원시 과학 텍스트에서 학습 가능성의 격차(learnability gap)를 발견하고, 최첨단 LLM을 활용해 추론 과정과 용어를 명확히 하는 L4(생성적 정제) 및 L5(인지적 완성) 단계를 통해 이를 해소했습니다. 성능 향상의 원인을 엄격하게 파악하기 위해, 우리는 과학 콘텐츠를 배제하여 데이터 오염이 없는 베이스라인 모델인 daVinci-origin-3B/7B를 처음부터 사전 학습했습니다. 6,000억(600B) 토큰의 지속적인 사전 학습 결과, Darwin-Science는 20개 이상의 벤치마크에서 베이스라인 대비 각각 +2.12(3B) 및 +2.95(7B)점 높은 성능을 기록했으며, 도메인 관련 작업에서는 성능 향상이 +5.60 및 +8.40점에 달했습니다. L5 단계까지의 체계적인 확장은 총 +1.36점의 추가 이득을 가져왔으며, 이는 고수준의 데이터 처리가 잠재된 데이터 가치를 실현함을 입증합니다. 우리는 원칙에 기반한 공진화적 발전을 지원하기 위해 Darwin-Science 코퍼스와 daVinci-origin 모델을 공개합니다.

Original Abstract

Data quality determines foundation model performance, yet systematic processing frameworks are lacking. We introduce Data Darwinism, a ten-level taxonomy (L0-L9) that conceptualizes data-model co-evolution: advanced models produce superior data for next-generation systems. We validate this on scientific literature by constructing Darwin-Science, a 900B-token corpus (L0-L5). We identify a learnability gap in raw scientific text, which we bridge via L4 (Generative Refinement) and L5 (Cognitive Completion) using frontier LLMs to explicate reasoning and terminology. To ensure rigorous attribution, we pre-trained daVinci-origin-3B/7B models from scratch, excluding scientific content to create contamination-free baselines. After 600B tokens of continued pre-training, Darwin-Science outperforms baselines by +2.12 (3B) and +2.95 (7B) points across 20+ benchmarks, rising to +5.60 and +8.40 points on domain-aligned tasks. Systematic progression to L5 yields a +1.36 total gain, confirming that higher-level processing unlocks latent data value. We release the Darwin-Science corpus and daVinci-origin models to enable principled, co-evolutionary development.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!