2604.07963v1 Apr 09, 2026 cs.CL

대규모 언어 모델 관점에서 본 데이터 혼합 방식 재고

Rethinking Data Mixing from the Perspective of Large Language Models

Chang Xu
Chang Xu
Citations: 29
h-index: 3
R. Xu
R. Xu
Citations: 213
h-index: 3
Yuanjian Xu
Yuanjian Xu
Citations: 10
h-index: 2
Tianze Sun
Tianze Sun
Citations: 2
h-index: 1
Xinlong Zhao
Xinlong Zhao
Citations: 169
h-index: 8
Jianing Hao
Jianing Hao
Citations: 7
h-index: 1
Yang Liu
Yang Liu
Citations: 17
h-index: 1
Steven X. Chen
Steven X. Chen
Citations: 1
h-index: 1
Ran Chen
Ran Chen
Citations: 20
h-index: 2
Guang Zhang
Guang Zhang
Citations: 17
h-index: 3

데이터 혼합 전략은 대규모 언어 모델(LLM) 훈련에 필수적입니다. 실증적인 증거에 따르면 부적절한 전략은 일반화 성능을 크게 저하시킬 수 있습니다. 최근 방법들이 실질적인 성능을 향상시켰지만, 여전히 다음과 같은 근본적인 질문들이 남아 있습니다. 무엇이 도메인을 구성하는가? 인간과 모델의 도메인 인식은 일치하는가? 그리고 도메인 가중치가 일반화에 어떤 영향을 미치는가? 본 논문에서는 기울기 역전파와 도메인 분포 간의 형식적인 연관성을 확립하여, 훈련 과정에서 도메인이 수행하는 역할에 대한 이론적 프레임워크를 제시합니다. 이러한 분석을 바탕으로, 데이터 스케줄링을 그래프 제약 최적화 문제로 정의하는 재가중화 프레임워크인 DoGraph를 소개합니다. 다양한 규모의 GPT-2 모델에 대한 광범위한 실험 결과, DoGraph가 일관되게 경쟁력 있는 성능을 달성하는 것을 확인했습니다.

Original Abstract

Data mixing strategy is essential for large language model (LLM) training. Empirical evidence shows that inappropriate strategies can significantly reduce generalization. Although recent methods have improved empirical performance, several fundamental questions remain open: what constitutes a domain, whether human and model perceptions of domains are aligned, and how domain weighting influences generalization. We address these questions by establishing formal connections between gradient dynamics and domain distributions, offering a theoretical framework that clarifies the role of domains in training dynamics. Building on this analysis, we introduce DoGraph, a reweighting framework that formulates data scheduling as a graph-constrained optimization problem. Extensive experiments on GPT-2 models of varying scales demonstrate that DoGraph consistently achieves competitive performance.

0 Citations
0 Influential
4 Altmetric
20.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!