2601.21766v2 Jan 29, 2026 cs.CL

CoFrGeNet: 언어 생성 모델을 위한 연속 분수 기반 아키텍처

CoFrGeNet: Continued Fraction Architectures for Language Generation

K. Ramamurthy
K. Ramamurthy
Citations: 6,776
h-index: 33
Tejaswini Pedapati
Tejaswini Pedapati
Citations: 902
h-index: 12
Amit Dhurandhar
Amit Dhurandhar
Citations: 173
h-index: 6
Vijil Chenthamarakshan
Vijil Chenthamarakshan
Citations: 1,064
h-index: 15
Dennis Wei
Dennis Wei
Citations: 39
h-index: 3
R. Nair
R. Nair
Citations: 53
h-index: 6

트랜스포머는 언어 생성 모델 아키텍처로 널리 선호됩니다. 본 논문에서는 연속 분수에서 영감을 받아 새로운 함수 클래스를 제안하며, 이를 구현하는 아키텍처 패밀리를 CoFrGeNet (Continued Fraction Generative Networks)이라고 명명합니다. 본 연구에서는 이 함수 클래스를 기반으로 새로운 아키텍처 구성 요소를 설계하여, 트랜스포머 블록 내의 Multi-head Attention 및 Feed-Forward Network를 대체하면서 훨씬 적은 파라미터를 사용합니다. 또한, 제안된 구성 요소들을 표준 PyTorch 기반 그래디언트를 사용하는 것보다 더 정확하고 효율적으로 최적화하기 위한 사용자 정의 그래디언트 수식을 도출했습니다. 제안하는 구성 요소는 기존 트랜스포머 기반 모델의 학습 및 추론 절차에 거의 변화 없이 적용할 수 있는 플러그인 형태로 제공되므로, 대규모 산업 환경에 쉽게 통합될 수 있습니다. GPT2-xl (1.5B) 및 Llama3 (3.2B)라는 두 가지 매우 다른 트랜스포머 아키텍처에 대해 실험을 진행했습니다. GPT2-xl은 OpenWebText 및 GneissWeb 데이터셋으로, Llama3는 docling 데이터셋 (9개의 서로 다른 데이터셋으로 구성)으로 사전 훈련했습니다. 실험 결과, 제안하는 모델은 다운스트림 분류, 질의응답, 추론 및 텍스트 이해 작업에서 원래 모델과 경쟁력 있는 성능을 보였으며, 때로는 더 우수한 성능을 보였습니다. 또한, 파라미터 수가 $ rac{2}{3}$에서 $ rac{1}{2}$로 줄고 사전 훈련 시간이 단축되었습니다. 향후 하드웨어에 최적화된 구현을 통해 본 연구에서 제안하는 아키텍처의 잠재력을 더욱 극대화할 수 있을 것으로 기대합니다.

Original Abstract

Transformers are arguably the preferred architecture for language generation. In this paper, inspired by continued fractions, we introduce a new function class for generative modeling. The architecture family implementing this function class is named CoFrGeNets - Continued Fraction Generative Networks. We design novel architectural components based on this function class that can replace Multi-head Attention and Feed-Forward Networks in Transformer blocks while requiring much fewer parameters. We derive custom gradient formulations to optimize the proposed components more accurately and efficiently than using standard PyTorch-based gradients. Our components are a plug-in replacement requiring little change in training or inference procedures that have already been put in place for Transformer-based models thus making our approach easy to incorporate in large industrial workflows. We experiment on two very different transformer architectures GPT2-xl (1.5B) and Llama3 (3.2B), where the former we pre-train on OpenWebText and GneissWeb, while the latter we pre-train on the docling data mix which consists of nine different datasets. Results show that the performance on downstream classification, Q\& A, reasoning and text understanding tasks of our models is competitive and sometimes even superior to the original models with $\frac{2}{3}$ to $\frac{1}{2}$ the parameters and shorter pre-training time. We believe that future implementations customized to hardware will further bring out the true potential of our architectures.

0 Citations
0 Influential
16.5 Altmetric
82.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!