이산 잠재 공간에서의 다음 개념 예측이 더욱 강력한 언어 모델을 이끌어낸다
Next Concept Prediction in Discrete Latent Space Leads to Stronger Language Models
본 논문에서는 다음 토큰 예측(NTP)을 기반으로 하는 새로운 생성적 사전 학습 패러다임인 다음 개념 예측(NCP)을 제안합니다. NCP는 여러 토큰에 걸쳐 존재하는 이산적인 개념을 예측하며, 이는 더욱 도전적인 사전 학습 목표를 설정합니다. 저희 모델인 ConceptLM은 벡터 양자화(Vector Quantization)를 사용하여 은닉 상태를 양자화하고, 개념 어휘를 구축합니다. ConceptLM은 NCP와 NTP를 모두 활용하여 파라미터 업데이트를 수행하고, 다음 토큰 생성을 안내하기 위한 개념을 생성합니다. 저희는 Pythia 및 GPT-2를 기반으로 하는 70M에서 15억 파라미터 규모의 모델을 3000억 개의 학습 데이터를 사용하여 처음부터 학습했습니다. 13개의 벤치마크에서 얻은 결과는 NCP가 기존 토큰 수준 모델보다 일관된 성능 향상을 가져온다는 것을 보여줍니다. 또한, 80억 파라미터의 Llama 모델에 대한 지속적인 사전 학습 실험 결과, NCP는 NTP로 학습된 모델을 더욱 개선할 수 있음을 나타냅니다. 저희의 분석 결과, NCP는 더 어려운 사전 학습 작업을 도입함으로써 더욱 강력한 언어 모델을 만들 수 있으며, 이는 더 나은 언어 모델링을 위한 유망한 경로를 제시합니다.
We propose Next Concept Prediction (NCP), a generative pretraining paradigm built on top of Next Token Prediction (NTP). NCP predicts discrete concepts that span multiple tokens, thereby forming a more challenging pretraining objective. Our model, ConceptLM, quantizes hidden states using Vector Quantization and constructs a concept vocabulary. It leverages both NCP and NTP to drive parameter updates and generates a concept to guide the generation of the following tokens. We train ConceptLM from scratch at scales ranging from 70M to 1.5B parameters with up to 300B training data, including Pythia and GPT-2 backbones. Results on 13 benchmarks show that NCP yields consistent performance gains over traditional token-level models. Furthermore, continual pretraining experiments on an 8B-parameter Llama model indicate that NCP can further improve an NTP-trained model. Our analysis suggests that NCP leads to more powerful language models by introducing a harder pretraining task, providing a promising path toward better language modeling.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.