신경망 셀룰러 오토마타를 이용한 언어 모델 훈련
Training Language Models via Neural Cellular Automata
대규모 언어 모델(LLM)의 사전 훈련은 대부분의 표현과 능력이 획득되는 중요한 단계입니다. 하지만 자연어 사전 훈련은 다음과 같은 문제점을 가지고 있습니다. 고품질 텍스트의 양이 제한적이며, 인간의 편향이 포함되어 있고, 지식과 추론이 얽혀 있습니다. 이는 근본적인 질문을 제기합니다. 자연어만이 지능을 얻는 유일한 방법인가? 우리는 신경망 셀룰러 오토마타(NCA)를 사용하여 LLM의 사전-사전 훈련을 위한 합성, 비언어적 데이터를 생성하는 방법을 제안합니다. 즉, 합성 데이터를 먼저 학습하고 그 후에 자연어 데이터를 학습하는 방식입니다. NCA 데이터는 자연어와 유사한 풍부한 시공간 구조와 통계적 특성을 가지면서도, 제어 가능하고 대규모로 저렴하게 생성할 수 있습니다. 실험 결과, 1억 6천만 개의 NCA 토큰으로 사전-사전 훈련을 수행했을 때, 다운스트림 언어 모델링 성능이 최대 6% 향상되고, 수렴 속도가 최대 1.6배 빨라지는 것을 확인했습니다. 놀랍게도, 이는 Common Crawl에서 얻은 16억 개의 자연어 토큰으로 사전-사전 훈련하는 것보다 더 많은 계산 자원을 사용했음에도 더 좋은 성능을 보였습니다. 이러한 성능 향상은 GSM8K, HumanEval, BigBench-Lite와 같은 추론 벤치마크에서도 나타났습니다. 성능 향상의 원인을 분석한 결과, 어텐션 레이어가 가장 큰 영향을 미치는 것을 확인했으며, 최적의 NCA 복잡도는 도메인에 따라 다르다는 것을 알게 되었습니다. 예를 들어, 코드는 간단한 동역학으로부터 이점을 얻는 반면, 수학 및 웹 텍스트는 더 복잡한 동역학을 선호합니다. 이러한 결과를 바탕으로, 합성 데이터 분포를 체계적으로 조정하여 특정 도메인을 타겟팅할 수 있습니다. 더 나아가, 본 연구는 완전한 합성 사전 훈련을 통해 더욱 효율적인 모델을 개발할 수 있는 가능성을 제시합니다.
Pre-training is crucial for large language models (LLMs), as it is when most representations and capabilities are acquired. However, natural language pre-training has problems: high-quality text is finite, it contains human biases, and it entangles knowledge with reasoning. This raises a fundamental question: is natural language the only path to intelligence? We propose using neural cellular automata (NCA) to generate synthetic, non-linguistic data for pre-pre-training LLMs--training on synthetic-then-natural language. NCA data exhibits rich spatiotemporal structure and statistics resembling natural language while being controllable and cheap to generate at scale. We find that pre-pre-training on only 164M NCA tokens improves downstream language modeling by up to 6% and accelerates convergence by up to 1.6x. Surprisingly, this even outperforms pre-pre-training on 1.6B tokens of natural language from Common Crawl with more compute. These gains also transfer to reasoning benchmarks, including GSM8K, HumanEval, and BigBench-Lite. Investigating what drives transfer, we find that attention layers are the most transferable, and that optimal NCA complexity varies by domain: code benefits from simpler dynamics, while math and web text favor more complex ones. These results enable systematic tuning of the synthetic distribution to target domains. More broadly, our work opens a path toward more efficient models with fully synthetic pre-training.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.