SPA-Cache: 확산 언어 모델에서의 적응형 캐싱을 위한 특이 행렬 기반 프록시
SPA-Cache: Singular Proxies for Adaptive Caching in Diffusion Language Models
확산 언어 모델(DLM)은 자기 회귀 방식의 대안으로 유연하고 임의의 차수를 제공하지만, 비인과적 특성으로 인해 표준 KV 캐싱을 사용할 수 없으며, 매 디코딩 단계마다 비용이 많이 드는 은닉 상태 재계산을 수행해야 합니다. 기존의 DLM 캐싱 방법은 선택적인 은닉 상태 업데이트를 통해 이러한 비용을 줄이지만, 여전히 (i) 토큰 단위 업데이트 식별을 위한 복잡한 휴리스틱과 (ii) 이질적인 은닉 상태 동역학을 고려하지 못하는 경직된, 균일한 예산 할당이라는 한계가 있습니다. 이러한 문제점을 해결하기 위해, DLM 캐시에서 업데이트 식별과 예산 할당을 동시에 최적화하는 SPA-Cache를 제안합니다. 먼저, 업데이트에 중요한 토큰을 저차원 부분 공간에서 식별할 수 있는 저차원 특이 행렬 기반 프록시를 도출하여 업데이트 식별의 오버헤드를 크게 줄입니다. 둘째, 안정적인 레이어에는 더 적은 업데이트를 할당하여 생성 품질을 저하시키지 않는 적응적 전략을 도입합니다. 이러한 기여를 통해 DLM의 효율성을 크게 향상시켜, 일반적인 디코딩 방식에 비해 최대 8배의 처리량 향상과 기존 캐싱 방식에 비해 2~4배의 속도 향상을 달성했습니다.
While Diffusion Language Models (DLMs) offer a flexible, arbitrary-order alternative to the autoregressive paradigm, their non-causal nature precludes standard KV caching, forcing costly hidden state recomputation at every decoding step. Existing DLM caching approaches reduce this cost by selective hidden state updates; however, they are still limited by (i) costly token-wise update identification heuristics and (ii) rigid, uniform budget allocation that fails to account for heterogeneous hidden state dynamics. To address these challenges, we present SPA-Cache that jointly optimizes update identification and budget allocation in DLM cache. First, we derive a low-dimensional singular proxy that enables the identification of update-critical tokens in a low-dimensional subspace, substantially reducing the overhead of update identification. Second, we introduce an adaptive strategy that allocates fewer updates to stable layers without degrading generation quality. Together, these contributions significantly improve the efficiency of DLMs, yielding up to an $8\times$ throughput improvement over vanilla decoding and a $2$--$4\times$ speedup over existing caching baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.