Olmix: 언어 모델(LM) 개발 전반에 걸친 데이터 혼합 프레임워크
Olmix: A Framework for Data Mixing Throughout LM Development
다양한 도메인의 데이터 비율을 결정하는 데이터 혼합(Data mixing)은 언어 모델(LM) 학습에서 가장 중요한 고려 사항 중 하나이다. 기존의 혼합 방법들은 가능성을 보여주지만, 실제 LM 개발 과정에 적용하기에는 한계가 있다. 본 논문에서는 이러한 두 가지 주요 과제를 해결하는 프레임워크인 Olmix를 제안한다. 첫째, 혼합 방법 개발을 위한 구성 공간(configuration space)에 대한 이해가 부족하다. 기존 방법들의 설계 선택(design choices)은 합리적인 근거나 합의가 부족하며, 데이터 제약과 같은 실무적인 문제들을 간과하고 있다. 우리는 이 공간에 대한 포괄적인 경험적 연구를 수행하여, 어떠한 설계 선택이 강력한 혼합 방법으로 이어지는지 파악한다. 둘째, 실제 환경에서는 LM 개발 전반에 걸쳐 데이터셋이 추가, 제거, 분할 및 수정됨에 따라 도메인 집합이 지속적으로 진화하지만, 기존 연구들은 도메인이 고정되어 있다고 가정하기 때문에 이러한 문제를 거의 다루지 않았다. 우리는 과거 혼합물의 정보를 활용하여 도메인 집합이 업데이트된 후 혼합 비율을 효율적으로 재계산하는 방법을 연구한다. 이를 위해 기존 비율을 재사용하고 업데이트의 영향을 받는 도메인에 대해서만 비율을 재계산하는 메커니즘인 '혼합 재사용(mixture reuse)'을 도입한다. 실제 LM 개발을 반영한 5회의 연속적인 도메인 집합 업데이트 과정에서, 혼합 재사용 메커니즘은 매 업데이트마다 혼합을 완전히 재계산하는 방식과 동등한 성능을 74% 감소된 연산량으로 달성했으며, 혼합 없이 학습한 경우에 비해 다운스트림(downstream) 작업에서 11.6%의 성능 향상을 기록했다.
Data mixing -- determining the ratios of data from different domains -- is a first-order concern for training language models (LMs). While existing mixing methods show promise, they fall short when applied during real-world LM development. We present Olmix, a framework that addresses two such challenges. First, the configuration space for developing a mixing method is not well understood -- design choices across existing methods lack justification or consensus and overlook practical issues like data constraints. We conduct a comprehensive empirical study of this space, identifying which design choices lead to a strong mixing method. Second, in practice, the domain set evolves throughout LM development as datasets are added, removed, partitioned, and revised -- a problem setting largely unaddressed by existing works, which assume fixed domains. We study how to efficiently recompute the mixture after the domain set is updated, leveraging information from past mixtures. We introduce mixture reuse, a mechanism that reuses existing ratios and recomputes ratios only for domains affected by the update. Over a sequence of five domain-set updates mirroring real-world LM development, mixture reuse matches the performance of fully recomputing the mix after each update with 74% less compute and improves over training without mixing by 11.6% on downstream tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.