CARE: 공분산 인지 및 순위 향상 분해를 통한 멀티-헤드 잠재적 어텐션 활성화
CARE: Covariance-Aware and Rank-Enhanced Decomposition for Enabling Multi-Head Latent Attention
그룹화된 쿼리 어텐션(GQA)과 같은 사전 훈련된 어텐션 모듈을 멀티-헤드 잠재적 어텐션(MLA)으로 변환하면 KV 캐시 비용을 늘리지 않고도 표현력을 향상시킬 수 있으며, 이는 효율적인 추론에 매력적인 방법입니다. 그러나 많은 실제 변환 기준은 가중치 기반의 저랭크 근사(예: SVD 스타일 초기화) 및 균일한 랭크 할당에 의존합니다. 이러한 방법은 가중치 행렬 간의 차이를 최소화하는 데 집중하며, 입력 활성화에 대한 가중치의 영향을 고려하지 않고, 활성화의 공분산 구조를 무시하며, 레이어 전체에 균일한 랭크를 적용하여 활성화 드리프트 및 어텐션 정확도 저하를 초래합니다. 이러한 문제를 해결하기 위해, 우리는 고정된 KV 너비 하에서 공분산 인지 및 순위 향상 MLA 변환 파이프라인인 CARE를 제안합니다. CARE는 세 가지 핵심 단계를 포함합니다: (i) 활성화 보존 분해, 이는 실제 입력 활성화와 정렬되도록 근사를 수행하며, 단순히 가중치에만 의존하지 않습니다; (ii) 조정된 랭크 할당, 이는 더 많은 용량이 필요한 레이어에 더 많은 용량을 할당하여 고정된 KV 예산을 레이어에 분산합니다; (iii) KV-페리티 매핑, 이는 변환된 K와 V를 MLA 형식에 맞게 재파라미터화하면서 KV 캐시 크기를 변경하지 않습니다. 우리의 방법은 Qwen3-4B/30B-A3B-Instruct-2507 및 Llama-3.1-8B/70B-Instruct에서 균일한 랭크 SVD 기준보다 우수한 성능을 보이며, 원샷 퍼플렉시티를 최대 215배 줄이고 평균 정확도를 최대 1.70배 향상시킵니다. 간단한 후처리 SVD 보정 미세 조정을 통해 원래 모델의 정확도를 완전히 복구할 수 있습니다.
Converting pretrained attention modules such as grouped-query attention (GQA) into multi-head latent attention (MLA) can improve expressivity without increasing KV-cache cost, making it attractive for efficient inference. However, many practical conversion baselines rely on weight-only low-rank approximations (e.g., SVD-style initializations) and uniform rank allocation. They focus on minimizing the difference between weight matrices rather than on how those weights affect input activations, ignore the covariance structure of activations, and enforce uniform rank across layers, causing activation drift and degraded attention fidelity. To address these issues, we propose CARE, a Covariance-Aware, Rank-Enhanced MLA conversion pipeline under a fixed KV width. CARE introduces three key steps: (i) activation-preserving factorization, which aligns the approximation with the actual input activations rather than just the weights; (ii) adjusted-rank allocation, which spreads a fixed KV budget across layers by giving more capacity to layers that need it most; and (iii) KV-parity mapping, which reparameterizes the converted K and V to fit the MLA format while keeping the KV-cache size unchanged. Our method outperforms a uniform-rank SVD baseline on Qwen3-4B/30B-A3B-Instruct-2507 and Llama-3.1-8B/70B-Instruct, reducing one-shot perplexity by up to 215x and improving mean accuracy by up to 1.70x at matched KV budgets. With a brief post-SVD healing fine-tune, we fully recover the original model's accuracy.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.