2603.01293v1 Mar 01, 2026 cs.LG

사전 훈련 및 사후 훈련 추론 모델에서의 데이터 품질과 시너지 효과에 대한 이론적 관점

Theoretical Perspectives on Data Quality and Synergistic Effects in Pre- and Post-Training Reasoning Models

Adel Javanmard

Citations: 43

h-index: 4

V. Mirrokni

Citations: 21,683

h-index: 61

Baharan Mirzasoleiman

Citations: 4,150

h-index: 29

대규모 언어 모델(LLM)은 방대한 데이터 세트를 기반으로 사전 훈련을 거친 후, 지도 학습 기반 미세 조정(SFT) 또는 강화 학습(RL)을 통해 추가 훈련됩니다. 기존의 지침은 대규모이고 다양한 사전 훈련 데이터를 강조하는 반면, 사후 훈련은 다르게 작동합니다. SFT는 비교적 작고 고품질의 데이터 세트에 의존하는 반면, RL은 규모가 더 클수록 효과적이며, 종종 더 많은 피드백이 레이블 품질보다 중요합니다. 그러나 사전 훈련과 RL이 왜 대규모 데이터 세트를 필요로 하는지, SFT가 왜 작은 데이터 세트에서 더 뛰어난 성능을 보이는지, 그리고 고품질 SFT 데이터가 무엇을 의미하는지에 대한 명확한 설명은 아직 부족합니다. 본 연구에서는 선형 회귀를 위한 컨텍스트 내 가중치 예측 작업으로 훈련된 트랜스포머 모델에 대한 이론적 분석을 수행했습니다. 분석 결과, 다음과 같은 주요 사실들이 밝혀졌습니다. (i) 균형 잡힌 사전 훈련 데이터는 사후 훈련 단계에서 활성화될 수 있는 잠재적인 능력을 유도할 수 있으며, (ii) SFT는 사전 훈련된 모델에게 어려운 몇 가지 예제로부터 가장 효과적으로 학습하며, 지나치게 큰 SFT 데이터 세트는 유용한 사전 훈련 신호를 희석시킬 수 있습니다. 반면, RL은 사전 훈련된 모델에게 지나치게 어렵지 않은 대규모 데이터에서 가장 효과적입니다. 이러한 이론적 통찰력을 대규모 비선형 트랜스포머 아키텍처에 대한 실험을 통해 검증했습니다.

Original Abstract

Large Language Models (LLMs) are pretrained on massive datasets and later instruction-tuned via supervised fine-tuning (SFT) or reinforcement learning (RL). Best practices emphasize large, diverse pretraining data, whereas post-training operates differently: SFT relies on smaller, high-quality datasets, while RL benefits more from scale, with larger amounts of feedback often outweighing label quality. Yet it remains unclear why pretraining and RL require large datasets, why SFT excels on smaller ones, and what defines high-quality SFT data. In this work, we theoretically analyze transformers trained on an in-context weight prediction task for linear regression. Our analysis reveals several key findings: $(i)$ balanced pretraining data can induce latent capabilities later activated during post-training, and $(ii)$ SFT learns best from a small set of examples challenging for the pretrained model, while excessively large SFT datasets may dilute informative pretraining signals. In contrast, RL is most effective on large-scale data that is not overly difficult for the pretrained model. We validate these theoretical insights with experiments on large nonlinear transformer architectures.

0 Citations

0 Influential

30 Altmetric

150.0 Score

Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!