CoFrGeNet: 언어 생성 모델을 위한 연속 분수 기반 아키텍처
CoFrGeNet: Continued Fraction Architectures for Language Generation
트랜스포머는 언어 생성 모델 아키텍처로 널리 선호됩니다. 본 논문에서는 연속 분수에서 영감을 받아 새로운 함수 클래스를 제안하며, 이를 구현하는 아키텍처 패밀리를 CoFrGeNet (Continued Fraction Generative Networks)이라고 명명합니다. 본 연구에서는 이 함수 클래스를 기반으로 새로운 아키텍처 구성 요소를 설계하여, 트랜스포머 블록 내의 Multi-head Attention 및 Feed-Forward Network를 대체하면서 훨씬 적은 파라미터를 사용합니다. 또한, 제안된 구성 요소들을 표준 PyTorch 기반 그래디언트를 사용하는 것보다 더 정확하고 효율적으로 최적화하기 위한 사용자 정의 그래디언트 수식을 도출했습니다. 제안하는 구성 요소는 기존 트랜스포머 기반 모델의 학습 및 추론 절차에 거의 변화 없이 적용할 수 있는 플러그인 형태로 제공되므로, 대규모 산업 환경에 쉽게 통합될 수 있습니다. GPT2-xl (1.5B) 및 Llama3 (3.2B)라는 두 가지 매우 다른 트랜스포머 아키텍처에 대해 실험을 진행했습니다. GPT2-xl은 OpenWebText 및 GneissWeb 데이터셋으로, Llama3는 docling 데이터셋 (9개의 서로 다른 데이터셋으로 구성)으로 사전 훈련했습니다. 실험 결과, 제안하는 모델은 다운스트림 분류, 질의응답, 추론 및 텍스트 이해 작업에서 원래 모델과 경쟁력 있는 성능을 보였으며, 때로는 더 우수한 성능을 보였습니다. 또한, 파라미터 수가 $rac{2}{3}$에서 $rac{1}{2}$로 줄고 사전 훈련 시간이 단축되었습니다. 향후 하드웨어에 최적화된 구현을 통해 본 연구에서 제안하는 아키텍처의 잠재력을 더욱 극대화할 수 있을 것으로 기대합니다.
Transformers are arguably the preferred architecture for language generation. In this paper, inspired by continued fractions, we introduce a new function class for generative modeling. The architecture family implementing this function class is named CoFrGeNets - Continued Fraction Generative Networks. We design novel architectural components based on this function class that can replace Multi-head Attention and Feed-Forward Networks in Transformer blocks while requiring much fewer parameters. We derive custom gradient formulations to optimize the proposed components more accurately and efficiently than using standard PyTorch-based gradients. Our components are a plug-in replacement requiring little change in training or inference procedures that have already been put in place for Transformer-based models thus making our approach easy to incorporate in large industrial workflows. We experiment on two very different transformer architectures GPT2-xl (1.5B) and Llama3 (3.2B), where the former we pre-train on OpenWebText and GneissWeb, while the latter we pre-train on the docling data mix which consists of nine different datasets. Results show that the performance on downstream classification, Q\& A, reasoning and text understanding tasks of our models is competitive and sometimes even superior to the original models with $\frac{2}{3}$ to $\frac{1}{2}$ the parameters and shorter pre-training time. We believe that future implementations customized to hardware will further bring out the true potential of our architectures.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.