속도 향상 그 이상: KV 캐시를 활용한 샘플링 및 추론
Beyond Speedup -- Utilizing KV Cache for Sampling and Reasoning
일반적으로 오토리그레시브 디코딩 속도를 높이는 데만 사용되는 KV 캐시는 추가 비용 없이 다운스트림 작업에 재사용될 수 있는 문맥 정보를 포함하고 있습니다. 본 논문에서는 KV 캐시를 경량 표현으로 간주하여 전체 히든 상태를 다시 계산하거나 저장할 필요성을 없애는 방법을 제안합니다. 전용 임베딩보다 성능이 낮지만, KV에서 파생된 표현은 다음 두 가지 핵심 애플리케이션에서 충분한 성능을 보이는 것으로 나타났습니다. **(i) 체인-오브-임베딩(Chain-of-Embedding)**: Llama-3.1-8B-Instruct 및 Qwen2-7B-Instruct 모델에서 경쟁력 있는 또는 우수한 성능을 달성합니다. 그리고 **(ii) 빠른/느린 사고 전환(Fast/Slow Thinking Switching)**: Qwen3-8B 및 DeepSeek-R1-Distil-Qwen-14B 모델에서 적응적 추론을 가능하게 하여 최대 $5.7 imes$까지 토큰 생성을 줄이면서 정확도 손실은 최소화합니다. 본 연구는 KV 캐시를 샘플링 및 추론을 위한 무료이며 효과적인 기반으로 확립하고, LLM 추론에서 표현 재사용에 대한 새로운 방향을 제시합니다. 코드: https://github.com/cmd2001/ICLR2026_KV-Embedding
KV caches, typically used only to speed up autoregressive decoding, encode contextual information that can be reused for downstream tasks at no extra cost. We propose treating the KV cache as a lightweight representation, eliminating the need to recompute or store full hidden states. Despite being weaker than dedicated embeddings, KV-derived representations are shown to be sufficient for two key applications: \textbf{(i) Chain-of-Embedding}, where they achieve competitive or superior performance on Llama-3.1-8B-Instruct and Qwen2-7B-Instruct; and \textbf{(ii) Fast/Slow Thinking Switching}, where they enable adaptive reasoning on Qwen3-8B and DeepSeek-R1-Distil-Qwen-14B, reducing token generation by up to $5.7\times$ with minimal accuracy loss. Our findings establish KV caches as a free, effective substrate for sampling and reasoning, opening new directions for representation reuse in LLM inference. Code: https://github.com/cmd2001/ICLR2026_KV-Embedding.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.