SLA2: 학습 가능한 라우팅 및 양자화 인식 미세 조정을 통한 희소-선형 어텐션
SLA2: Sparse-Linear Attention with Learnable Routing and QAT
희소-선형 어텐션(SLA)은 희소성과 선형성을 결합하여 확산 모델의 속도를 향상시키며, 특히 비디오 생성 분야에서 뛰어난 성능을 보여줍니다. 그러나 (i) SLA는 어텐션 가중치의 크기를 기준으로 희소 또는 선형 분기를 할당하는 휴리스틱한 방식을 사용하며, 이는 최적이 아닐 수 있습니다. 또한 (ii) SLA의 어텐션 오류를 정량적으로 분석한 결과, SLA와 희소 및 선형 어텐션의 직접적인 분해 사이에는 불일치가 있음을 확인했습니다. 이에 SLA2를 제안합니다. SLA2는 (I) 각 어텐션 계산에 희소 또는 선형 어텐션을 사용할지 동적으로 선택하는 학습 가능한 라우터를 도입하고, (II) 학습 가능한 비율을 사용하여 희소 및 선형 어텐션 분기를 결합함으로써 더욱 정확하고 직접적인 희소-선형 어텐션 방식을 사용하며, (III) 양자화 인식 미세 조정을 통해 양자화 오류를 줄이는 저비트 어텐션을 희소 어텐션과 결합한 방식을 사용합니다. 실험 결과, 비디오 확산 모델에서 SLA2는 97%의 어텐션 희소성을 달성하고, 생성 품질을 유지하면서 어텐션 속도를 18.6배 향상시킬 수 있음을 확인했습니다.
Sparse-Linear Attention (SLA) combines sparse and linear attention to accelerate diffusion models and has shown strong performance in video generation. However, (i) SLA relies on a heuristic split that assigns computations to the sparse or linear branch based on attention-weight magnitude, which can be suboptimal. Additionally, (ii) after formally analyzing the attention error in SLA, we identify a mismatch between SLA and a direct decomposition into sparse and linear attention. We propose SLA2, which introduces (I) a learnable router that dynamically selects whether each attention computation should use sparse or linear attention, (II) a more faithful and direct sparse-linear attention formulation that uses a learnable ratio to combine the sparse and linear attention branches, and (III) a sparse + low-bit attention design, where low-bit attention is introduced via quantization-aware fine-tuning to reduce quantization error. Experiments show that on video diffusion models, SLA2 can achieve 97% attention sparsity and deliver an 18.6x attention speedup while preserving generation quality.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.