2310.19341 Oct 30, 2023 cs.AI

Skywork: 더 개방적인 이중 언어 기반 모델

Skywork: A More Open Bilingual Foundation Model

Tianwen Wei
Tianwen Wei
Citations: 318
h-index: 6
Liang Zhao
Liang Zhao
Citations: 210
h-index: 4
Lichang Zhang
Lichang Zhang
Citations: 125
h-index: 1
Bo Zhu
Bo Zhu
Citations: 206
h-index: 4
Lijie Wang
Lijie Wang
Citations: 139
h-index: 2
Haihua Yang
Haihua Yang
Citations: 127
h-index: 2
Biye Li
Biye Li
Citations: 196
h-index: 3
Cheng Cheng
Cheng Cheng
Citations: 330
h-index: 6
Weiwei Lü
Weiwei Lü
Citations: 177
h-index: 2
Rui Hu
Rui Hu
Citations: 268
h-index: 5
Chenxia Li
Chenxia Li
Citations: 146
h-index: 3
Liu Yang
Liu Yang
Citations: 165
h-index: 4
Xilin Luo
Xilin Luo
Citations: 125
h-index: 1
X. Wu
X. Wu
Citations: 259
h-index: 5
Lunan Liu
Lunan Liu
Citations: 127
h-index: 2
Peng Cheng
Peng Cheng
Citations: 344
h-index: 7
Jianhao Zhang
Jianhao Zhang
Citations: 217
h-index: 4
Xiaoyu Zhang
Xiaoyu Zhang
Citations: 201
h-index: 3
Xiaokun Wang
Xiaokun Wang
Citations: 177
h-index: 2
Yutuan Ma
Yutuan Ma
Citations: 177
h-index: 2
Yongyi Peng
Yongyi Peng
Citations: 144
h-index: 2
Shuicheng Yan
Shuicheng Yan
Citations: 574
h-index: 6
Han Fang
Han Fang
Citations: 455
h-index: 3
Yahui Zhou
Yahui Zhou
Citations: 973
h-index: 15
Lei Lin
Lei Lin
Citations: 189
h-index: 5
Chuanhai Dong
Chuanhai Dong
Citations: 415
h-index: 3
Yifu Chen
Yifu Chen
Citations: 2,659
h-index: 6
Xiao Liang
Xiao Liang
Citations: 154
h-index: 3
Wen Cheng
Wen Cheng
Citations: 131
h-index: 2
Yanqi Sun
Yanqi Sun
Citations: 218
h-index: 4

본 기술 보고서에서는 영어와 중국어 텍스트에서 추출한 3조 2천억 개 이상의 토큰으로 구성된 말뭉치로 학습된 대형 언어 모델(LLM) 제품군인 Skywork-13B를 소개합니다. 이 이중 언어 기반 모델은 현재까지 공개된 동급 크기의 LLM 중 가장 방대하게 학습되고 가장 개방적으로 공개된 모델입니다. 우리는 분할된 말뭉치를 사용하여 각각 범용 학습과 도메인 특화 강화 학습을 목표로 하는 2단계 학습 방법론을 도입했습니다. 우리 모델은 주요 벤치마크에서 뛰어난 성능을 보일 뿐만 아니라, 다양한 도메인의 중국어 언어 모델링에서 최고 수준(state-of-the-art)의 성능을 달성함을 보여줍니다. 또한, 새로운 데이터 유출 탐지 방법을 제안하여, 테스트 데이터 오염이 LLM 커뮤니티에서 추가적인 조사가 필요한 시급한 문제임을 입증합니다. 향후 연구를 촉진하기 위해 Skywork-13B와 함께 학습 과정의 중간 단계에서 획득한 체크포인트들을 공개합니다. 아울러 현재까지 공개된 고품질 중국어 사전 학습 말뭉치 중 가장 큰 규모인 1,500억 개 이상의 웹 텍스트 토큰 모음인 SkyPile 말뭉치의 일부도 공개합니다. 우리는 Skywork-13B와 공개된 말뭉치가 고품질 LLM에 대한 접근을 민주화하는 데 귀중한 오픈 소스 자원이 되기를 희망합니다.

Original Abstract

In this technical report, we present Skywork-13B, a family of large language models (LLMs) trained on a corpus of over 3.2 trillion tokens drawn from both English and Chinese texts. This bilingual foundation model is the most extensively trained and openly published LLMs of comparable size to date. We introduce a two-stage training methodology using a segmented corpus, targeting general purpose training and then domain-specific enhancement training, respectively. We show that our model not only excels on popular benchmarks, but also achieves \emph{state of the art} performance in Chinese language modeling on diverse domains. Furthermore, we propose a novel leakage detection method, demonstrating that test data contamination is a pressing issue warranting further investigation by the LLM community. To spur future research, we release Skywork-13B along with checkpoints obtained during intermediate stages of the training process. We are also releasing part of our SkyPile corpus, a collection of over 150 billion tokens of web text, which is the largest high quality open Chinese pre-training corpus to date. We hope Skywork-13B and our open corpus will serve as a valuable open-source resource to democratize access to high-quality LLMs.

126 Citations
13 Influential
7.5 Altmetric
189.5 Score

AI Analysis

Korean Summary

이 논문은 3.2조 개 이상의 토큰으로 학습된 130억(13B) 파라미터 규모의 이중 언어(영어 및 중국어) 파운데이션 모델인 Skywork-13B를 소개합니다. 연구진은 일반적인 웹 텍스트로 학습하는 1단계와 STEM(과학, 기술, 공학, 수학) 분야 능력을 강화하는 2단계로 구성된 학습 방법론을 제안하여, 캣스트로피 포각(Catastrophic Forgetting) 없이 특정 도메인의 성능을 향상시켰습니다. 또한, 벤치마크 점수의 과적합 문제를 지적하며 다양한 도메인의 언어 모델링 손실(LM Loss)을 통한 훈련 모니터링 방법과 데이터 오염(Data Contamination)을 탐지하기 위한 새로운 접근법을 제시했습니다. 연구팀은 모델 가중치와 함께 1,500억 토큰 규모의 고품질 중국어 말뭉치인 SkyPile의 일부를 오픈 소스로 공개했습니다.

Key Innovations

  • 일반 목적 학습 후 STEM 도메인 특화 학습을 수행하는 2단계 학습(Two-stage Training) 방법론
  • 벤치마크 데이터 유출(Leakage) 여부를 판단하기 위해 훈련/테스트/GPT-4 생성 데이터 간의 손실(Loss) 차이를 비교하는 새로운 탐지 기법
  • 단순 벤치마크 점수가 아닌 다양한 도메인별 검증 세트의 언어 모델링 손실(Validation Loss)을 주요 성능 지표로 활용
  • 3.2조 토큰 규모의 고품질 이중 언어 데이터셋 SkyPile 구축 및 엄격한 데이터 필터링 파이프라인 적용
  • LLaMA 대비 더 깊고 좁은(Deeper and Narrower) 네트워크 아키텍처 채택

Learning & Inference Impact

학습 과정에서 2단계 접근법을 통해 일반적인 언어 능력을 유지하면서도 수학 및 코딩과 같은 복잡한 문제 해결 능력을 크게 향상시켰습니다. 특히 2단계 학습 시 이전 단계의 데이터를 적절히 혼합하여 학습 안정성을 확보했습니다. 추론 및 평가 측면에서는 기존의 고정된 벤치마크 테스트셋 대신, 최신 데이터로 구성된 도메인별 테스트셋의 퍼플렉서티(Perplexity)를 측정함으로써 모델의 실제 일반화 성능을 더 정확하게 예측할 수 있게 되었습니다. 13B 파라미터 모델로서 소비자용 하드웨어에서도 접근 가능한 추론 비용을 유지하면서 동급 모델 대비 우수한 성능을 제공합니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!