2601.22156v1 Jan 29, 2026 cs.CL

최적화된 하이브리드 선형 어텐션: 극도로 긴 문맥을 위한 효율적인 지식 증류 및 효과적인 아키텍처

Hybrid Linear Attention Done Right: Efficient Distillation and Effective Architectures for Extremely Long Contexts

Yingfa Chen
Yingfa Chen
Tsinghua University
Citations: 463
h-index: 9
Xingyu Shen
Xingyu Shen
Citations: 5
h-index: 1
Z. Thai
Z. Thai
Citations: 1,779
h-index: 5
Chaojun Xiao
Chaojun Xiao
Citations: 3,131
h-index: 22
Zihan Zhou
Zihan Zhou
Citations: 106
h-index: 3
Zhu Zhang
Zhu Zhang
Citations: 17
h-index: 1
Shuo Wang
Shuo Wang
Citations: 132
h-index: 5
Xu Han
Xu Han
Citations: 758
h-index: 11
Zhiyuan Liu
Zhiyuan Liu
Citations: 1,238
h-index: 11

소프트맥스 어텐션 블록과 순환 신경망(RNN)을 결합한 하이브리드 트랜스포머 아키텍처는 긴 문맥 모델링에서 뛰어난 성능-처리량 균형을 보여주었지만, 처음부터 대규모 사전 훈련의 높은 비용으로 인해 채택과 연구가 제한되었습니다. 일부 최근 연구에서는 사전 훈련된 소프트맥스 어텐션 블록이 파라미터 전송 및 지식 증류를 통해 RNN 블록으로 변환될 수 있음을 보여주었습니다. 그러나 이러한 전송 방법은 상당한 양의 훈련 데이터(100억 개 이상의 토큰)를 필요로 하며, 결과적으로 생성된 하이브리드 모델은 트랜스포머 기반 모델보다 상당한 추론 속도 향상을 제공하는 긴 문맥 성능이 좋지 않습니다. 본 논문에서는 트랜스포머 모델을 RNN-어텐션 하이브리드 모델로 증류하는 파이프라인인 HALO(Hybrid Attention via Layer Optimization)를 제시합니다. 또한, 새로운 위치 인코딩 방식(HyPE)과 다양한 아키텍처 수정 사항을 통해 우수한 길이 일반화 성능을 제공하는 하이브리드 아키텍처인 HypeNet을 제시합니다. HALO를 사용하여 Qwen3 시리즈를 HypeNet으로 변환하여, 원래 트랜스포머 모델과 비교 가능한 성능을 달성하면서 우수한 긴 문맥 성능과 효율성을 제공합니다. 변환 과정에는 23억 개의 토큰만 필요하며, 이는 사전 훈련 데이터의 0.01% 미만에 불과합니다.

Original Abstract

Hybrid Transformer architectures, which combine softmax attention blocks and recurrent neural networks (RNNs), have shown a desirable performance-throughput tradeoff for long-context modeling, but their adoption and studies are hindered by the prohibitive cost of large-scale pre-training from scratch. Some recent studies have shown that pre-trained softmax attention blocks can be converted into RNN blocks through parameter transfer and knowledge distillation. However, these transfer methods require substantial amounts of training data (more than 10B tokens), and the resulting hybrid models also exhibit poor long-context performance, which is the scenario where hybrid models enjoy significant inference speedups over Transformer-based models. In this paper, we present HALO (Hybrid Attention via Layer Optimization), a pipeline for distilling Transformer models into RNN-attention hybrid models. We then present HypeNet, a hybrid architecture with superior length generalization enabled by a novel position encoding scheme (named HyPE) and various architectural modifications. We convert the Qwen3 series into HypeNet using HALO, achieving performance comparable to the original Transformer models while enjoying superior long-context performance and efficiency. The conversion requires just 2.3B tokens, less than 0.01% of their pre-training data

1 Citations
0 Influential
11 Altmetric
56.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!