대규모 언어 모델 관점에서 본 데이터 혼합 방식 재고
Rethinking Data Mixing from the Perspective of Large Language Models
데이터 혼합 전략은 대규모 언어 모델(LLM) 훈련에 필수적입니다. 실증적인 증거에 따르면 부적절한 전략은 일반화 성능을 크게 저하시킬 수 있습니다. 최근 방법들이 실질적인 성능을 향상시켰지만, 여전히 다음과 같은 근본적인 질문들이 남아 있습니다. 무엇이 도메인을 구성하는가? 인간과 모델의 도메인 인식은 일치하는가? 그리고 도메인 가중치가 일반화에 어떤 영향을 미치는가? 본 논문에서는 기울기 역전파와 도메인 분포 간의 형식적인 연관성을 확립하여, 훈련 과정에서 도메인이 수행하는 역할에 대한 이론적 프레임워크를 제시합니다. 이러한 분석을 바탕으로, 데이터 스케줄링을 그래프 제약 최적화 문제로 정의하는 재가중화 프레임워크인 DoGraph를 소개합니다. 다양한 규모의 GPT-2 모델에 대한 광범위한 실험 결과, DoGraph가 일관되게 경쟁력 있는 성능을 달성하는 것을 확인했습니다.
Data mixing strategy is essential for large language model (LLM) training. Empirical evidence shows that inappropriate strategies can significantly reduce generalization. Although recent methods have improved empirical performance, several fundamental questions remain open: what constitutes a domain, whether human and model perceptions of domains are aligned, and how domain weighting influences generalization. We address these questions by establishing formal connections between gradient dynamics and domain distributions, offering a theoretical framework that clarifies the role of domains in training dynamics. Building on this analysis, we introduce DoGraph, a reweighting framework that formulates data scheduling as a graph-constrained optimization problem. Extensive experiments on GPT-2 models of varying scales demonstrate that DoGraph consistently achieves competitive performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.