RaBiT: 정확하고 효율적인 LLM을 위한 잔차 인식 이진화 학습
RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs
거대언어모델(LLM)의 효율적인 배포는 극도의 양자화를 필요로 하며, 이는 저비트 효율성과 성능 사이의 치명적인 상충 관계를 야기합니다. 잔차 이진화(Residual binarization)는 이진(±1) 레이어를 적층하여 하드웨어 친화적이고 행렬 곱 연산이 없는(matmul-free) 추론을 가능하게 하지만, 병리적인 특성 상호 적응(feature co-adaptation) 문제에 취약합니다. 우리는 '경로 간 적응(inter-path adaptation)'이라고 명명한 핵심 실패 요인을 파악했습니다. 이는 양자화 인식 학습(QAT) 중에 병렬 잔차 이진 경로들이 중복된 특성을 학습하여, 오차 보정 구조를 저하시키고 모델의 표현 능력을 제한하는 현상입니다. 기존 연구들은 해 공간을 제약하는 휴리스틱한 미봉책(예: 경로 동결)에 의존하는 반면, 우리는 알고리즘적으로 잔차 계층 구조를 강제하여 상호 적응 문제를 해결하는 새로운 양자화 프레임워크인 RaBiT를 제안합니다. RaBiT의 핵심 메커니즘은 공유된 단일 전정밀도 가중치로부터 각 이진 경로를 순차적으로 유도하는 것으로, 모든 경로가 이전 경로의 오차를 보정하도록 보장합니다. 이 과정은 단순한 가중치 근사보다 기능적 보존을 우선시하는 강건한 초기화 방법을 통해 안정화됩니다. RaBiT는 2비트 정확도-효율성의 경계를 재정의합니다. 이 방법은 최고 수준(SOTA)의 성능을 달성하고, 하드웨어 집약적인 벡터 양자화(VQ) 방식에도 필적하며, RTX 4090에서 전정밀도 모델 대비 4.49배의 추론 속도 향상을 제공합니다.
Efficient deployment of large language models (LLMs) requires extreme quantization, forcing a critical trade-off between low-bit efficiency and performance. Residual binarization enables hardware-friendly, matmul-free inference by stacking binary ($\pm$1) layers, but is plagued by pathological feature co-adaptation. We identify a key failure mode, which we term inter-path adaptation: during quantization-aware training (QAT), parallel residual binary paths learn redundant features, degrading the error-compensation structure and limiting the expressive capacity of the model. While prior work relies on heuristic workarounds (e.g., path freezing) that constrain the solution space, we propose RaBiT, a novel quantization framework that resolves co-adaptation by algorithmically enforcing a residual hierarchy. Its core mechanism sequentially derives each binary path from a single shared full-precision weight, which ensures that every path corrects the error of the preceding one. This process is stabilized by a robust initialization that prioritizes functional preservation over mere weight approximation. RaBiT redefines the 2-bit accuracy-efficiency frontier: it achieves state-of-the-art performance, rivals even hardware-intensive Vector Quantization (VQ) methods, and delivers a $4.49\times$ inference speed-up over full-precision models on an RTX 4090.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.