2602.03772v1 Feb 03, 2026 cs.LG

UniGeM: 기하학적 탐색 및 분석을 통한 데이터 혼합 및 선택의 통합

UniGeM: Unifying Data Mixing and Selection via Geometric Exploration and Mining

Jun Zhou
Jun Zhou
Citations: 95
h-index: 6
Chao Li
Chao Li
Citations: 866
h-index: 4
Changhao Wang
Changhao Wang
Citations: 2
h-index: 1
Yunfei Yu
Yunfei Yu
Citations: 93
h-index: 3
Xinhao Yao
Xinhao Yao
Citations: 37
h-index: 4
Jiaolong Yang
Jiaolong Yang
Citations: 32
h-index: 2
Qing Cui
Qing Cui
Citations: 66
h-index: 5
R. Cantoro
R. Cantoro
Citations: 1,486
h-index: 14

대규모 언어 모델(LLM)의 성능 향상은 데이터 품질에 의해 점점 더 제한되고 있습니다. 대부분의 방법은 데이터 혼합과 샘플 선택을 별도로 처리하는데, 이는 코드 코퍼스 내의 구조를 파괴할 수 있습니다. 본 논문에서는 extbf{UniGeM}이라는 프레임워크를 소개합니다. UniGeM은 데이터 큐레이션을 대리 모델 학습이나 외부 참조 데이터셋에 의존하지 않고, extit{다양체 근사} 문제로 간주하여 혼합과 선택을 통합합니다. UniGeM은 계층적으로 작동합니다. extbf{매크로 탐색}은 안정성 기반 클러스터링을 통해 혼합 가중치를 학습하고, extbf{마이크로 마이닝}은 기하학적 분포를 기반으로 고품질 인스턴스를 필터링하여 논리적 일관성을 보장합니다. 1000억 개의 토큰으로 80억 및 160억 개의 MoE 모델을 학습하여 검증한 결과, UniGeM은 무작위 기준에 비해 extbf{2.0배 더 높은 데이터 효율성}을 달성했으며, 추론 중심 평가 및 다국어 일반화 측면에서 최첨단 방법보다 전체 성능이 향상되었습니다.

Original Abstract

The scaling of Large Language Models (LLMs) is increasingly limited by data quality. Most methods handle data mixing and sample selection separately, which can break the structure in code corpora. We introduce \textbf{UniGeM}, a framework that unifies mixing and selection by treating data curation as a \textit{manifold approximation} problem without training proxy models or relying on external reference datasets. UniGeM operates hierarchically: \textbf{Macro-Exploration} learns mixing weights with stability-based clustering; \textbf{Micro-Mining} filters high-quality instances by their geometric distribution to ensure logical consistency. Validated by training 8B and 16B MoE models on 100B tokens, UniGeM achieves \textbf{2.0$\times$ data efficiency} over a random baseline and further improves overall performance compared to SOTA methods in reasoning-heavy evaluations and multilingual generalization.

0 Citations
0 Influential
7 Altmetric
35.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!