BWLA: LLM의 W1AX 사후 양자화의 장벽을 허무는 방법
BWLA: Breaking the Barrier of W1AX Post-Training Quantization for LLMs
대규모 언어 모델(LLM)은 자연어 처리 분야에서 괄목할 만한 발전을 이루었지만, 여전히 막대한 메모리 및 연산 요구 사항은 실제 적용을 어렵게 만듭니다. 이진화는 가중치를 1비트로 압축하여 연산 및 대역폭 비용을 근본적으로 줄일 수 있습니다. 그러나 기존 방법은 활성화 값의 극단적인 분포를 처리하지 못하기 때문에, 높은 정밀도의 활성화 값을 유지해야 하며, 이는 진정한 엔드 투 엔드 가속화를 방해합니다. 이러한 한계를 극복하기 위해, 본 논문에서는 가중치를 이진화하고 낮은 비트(예: 6비트)의 활성화 값을 동시에 사용하여 높은 정확도를 유지하는 최초의 사후 양자화 프레임워크인 BWLA (Binarized Weights and Low-bit Activations)를 제안합니다. Orthogonal-Kronecker Transformation (OKT)은 EM 최소화를 통해 직교 매핑을 학습하여 단일 모드 가중치를 대칭 이분 모드 형태로 변환하고 활성화 값의 극단적인 분포를 억제합니다. 이후 Proximal SVD Projection (PSP)은 경사 SVD 투영을 통해 가볍고 저랭크의 개선을 수행하여 최소한의 오버헤드로 양자화 가능성을 더욱 향상시킵니다. Qwen3-32B 모델에서 BWLA는 6비트 활성화 값을 사용할 때 Wikitext2의 perplexity를 11.92로 낮추었으며 (SOTA 모델의 38 대비), 5가지 제로샷 작업에서 70% 이상의 성능 향상을 보였으며, 추론 속도를 3.26배 향상시켰습니다. 이는 실제 LLM 압축 및 가속에 대한 강력한 잠재력을 보여줍니다.
Large language models (LLMs) have driven major progress in NLP, yet their substantial memory and compute demands still hinder practical deployment. Binarization can compress weights to 1 bit, fundamentally lowering compute and bandwidth cost. However, existing methods cannot address activation heavy tails and thus must keep activations in high precision, preventing true end-to-end acceleration. To overcome this limitation, we propose BWLA (Binarized Weights and Low-bit Activations), the first post-training quantization framework that preserves high accuracy while achieving 1-bit weight quantization together with low-bit activations (e.g., 6 bits). The Orthogonal-Kronecker Transformation (OKT) learns an orthogonal mapping via EM minimization, converting unimodal weights into symmetric bimodal forms while suppressing activation tails and incoherence. The Proximal SVD Projection (PSP) then performs lightweight low-rank refinement through proximal SVD projection, further enhancing quantizability with minimal overhead. On Qwen3-32B, BWLA reaches a Wikitext2 perplexity of 11.92 under 6-bit activations (vs. 38 from SOTA), improves five zero-shot tasks by more than 70%, and delivers 3.26 times inference speedup, demonstrating strong potential for real-world LLM compression and acceleration.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.