2603.27164v1 Mar 28, 2026 cs.AI

daVinci-LLM: 사전 훈련의 과학에 대한 접근

daVinci-LLM:Towards the Science of Pretraining

Weiye Si
Weiye Si
Citations: 20
h-index: 3
Yiwei Qin
Yiwei Qin
Citations: 490
h-index: 7
Tiantian Mi
Tiantian Mi
Citations: 9
h-index: 2
Pengfei Liu
Pengfei Liu
Citations: 107
h-index: 1
Pengrui Lu
Pengrui Lu
Citations: 207
h-index: 3
Qipeng Guo
Qipeng Guo
Citations: 1,045
h-index: 8
Jinlong Hou
Jinlong Hou
Citations: 25
h-index: 4
Muhang Xie
Muhang Xie
Citations: 5
h-index: 1
Yixiu Liu
Yixiu Liu
Citations: 361
h-index: 5
Liming Liu
Liming Liu
Citations: 36
h-index: 4
Zhengmin Huang
Zhengmin Huang
Citations: 2
h-index: 1
Siyuan Feng
Siyuan Feng
Citations: 7
h-index: 2
Xia Wu
Xia Wu
Citations: 6
h-index: 1
Ye Luo
Ye Luo
Citations: 0
h-index: 0
Yu Qiao
Yu Qiao
Citations: 69
h-index: 4

사전 훈련 단계는 모델의 잠재력을 결정하며, 후속 훈련은 사전 훈련 단계에서 확립된 능력의 기반을 극복하기 어렵기 때문에 매우 중요하지만, 여전히 충분히 연구되지 않았습니다. 이러한 현상은 구조적인 모순에서 비롯됩니다. 컴퓨팅 자원을 보유한 조직은 투명한 공개를 저해하는 상업적 압박을 받고, 반면 학술 기관은 연구의 자유를 누리지만 사전 훈련에 필요한 규모의 컴퓨팅 자원이 부족합니다. daVinci-LLM은 이러한 미개척 영역에 위치하며, 산업 규모의 자원과 완전한 연구 자유를 결합하여 사전 훈련의 과학 발전에 기여합니다. 우리는 개방성을 과학적 방법론으로 간주하는 완전한 개방형 패러다임을 채택하여, 데이터 처리 파이프라인, 전체 훈련 과정 및 체계적인 탐색 결과를 공개합니다. 데이터 처리 분야에 체계적인 방법론이 부족하다는 점을 인식하고, 필터링부터 합성까지 원칙에 기반한 L0-L9 분류 체계인 Data Darwinism 프레임워크를 사용합니다. 우리는 8조 개의 토큰을 사용하여 무작위 초기화에서 시작하여 30억 개의 파라미터를 가진 모델을 훈련하며, 두 단계의 적응형 교육 과정을 통해 기본적인 능력에서 추론 능력 향상으로 점진적으로 전환합니다. 200개 이상의 통제된 실험을 통해 다음과 같은 사실을 확인했습니다. 데이터 처리 깊이는 능력을 체계적으로 향상시키며, 이는 데이터 양을 늘리는 것과 함께 중요한 요소입니다. 다양한 도메인은 뚜렷한 포화 현상을 보이며, 이는 비율 조정부터 형식 변경까지 다양한 적응 전략을 필요로 합니다. 요소 간의 균형은 특정 영역의 집중적인 향상을 가능하게 하면서 성능 저하를 방지합니다. 평가 프로토콜의 선택이 사전 훈련 진행 상황에 대한 이해에 어떤 영향을 미치는지 확인했습니다. 전체 탐색 과정을 공개함으로써, 커뮤니티가 우리의 연구 결과와 체계적인 방법론을 바탕으로 사전 훈련 분야의 누적적인 과학적 지식을 구축할 수 있도록 지원합니다.

Original Abstract

The foundational pretraining phase determines a model's capability ceiling, as post-training struggles to overcome capability foundations established during pretraining, yet it remains critically under-explored. This stems from a structural paradox: organizations with computational resources operate under commercial pressures that inhibit transparent disclosure, while academic institutions possess research freedom but lack pretraining-scale computational resources. daVinci-LLM occupies this unexplored intersection, combining industrial-scale resources with full research freedom to advance the science of pretraining. We adopt a fully-open paradigm that treats openness as scientific methodology, releasing complete data processing pipelines, full training processes, and systematic exploration results. Recognizing that the field lacks systematic methodology for data processing, we employ the Data Darwinism framework, a principled L0-L9 taxonomy from filtering to synthesis. We train a 3B-parameter model from random initialization across 8T tokens using a two-stage adaptive curriculum that progressively shifts from foundational capabilities to reasoning-intensive enhancement. Through 200+ controlled ablations, we establish that: processing depth systematically enhances capabilities, establishing it as a critical dimension alongside volume scaling; different domains exhibit distinct saturation dynamics, necessitating adaptive strategies from proportion adjustments to format shifts; compositional balance enables targeted intensification while preventing performance collapse; how evaluation protocol choices shape our understanding of pretraining progress. By releasing the complete exploration process, we enable the community to build upon our findings and systematic methodologies to form accumulative scientific knowledge in pretraining.

0 Citations
0 Influential
4 Altmetric
20.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!