CHESS: 문맥 인식 계층적 효율적 의미 선택을 통한 장문 컨텍스트 LLM 추론
CHESS: Context-aware Hierarchical Efficient Semantic Selection for Long-Context LLM Inference
장문 컨텍스트 LLM은 낮은 지연 시간으로 정확한 추론을 요구하지만, 컨텍스트가 증가함에 따라 디코딩은 주로 KV 캐시에 의해 제약됩니다. 기존의 가지치기 방법은 대부분 문맥에 대한 정보가 부족하여 토큰 선택 시 단계별 관련성과 지역적 의미를 고려하지 못하여 품질이 저하됩니다. 또한, 불규칙적인 접근 방식과 선택 오버헤드는 제한적인 실제 속도 향상만을 가져옵니다. 이러한 문제를 해결하기 위해, 본 논문에서는 extbf{CHESS}, 즉 extit{알고리즘-시스템 통합 설계} KV 캐시 관리 시스템을 제안합니다. 알고리즘적으로, CHESS는 현재 디코딩에 적합한 일관된 문맥을 동적으로 재구성하는 문맥 인식 계층적 선택 정책을 도입합니다. 시스템적으로, CHESS는 거친 수준의 선택을 통해 값비싼 데이터 이동을 제거하고, 이론적인 희소성을 활용하여 실제적인 성능 향상을 실현합니다. 광범위한 실험 결과는 CHESS가 전체 KV 캐시의 extbf{1%}만 사용하면서 Full-KV 수준의 품질을 능가하며, 최대 extbf{4.56배} 더 높은 처리량을 제공하고, 다른 강력한 기본 모델보다 일관되게 우수한 성능을 발휘한다는 것을 보여줍니다. 코드는 다음 링크에서 확인할 수 있습니다: https://anonymous.4open.science/r/CHESS-9958/
Long-context LLMs demand accurate inference at low latency, yet decoding becomes primarily constrained by KV cache as context grows. Prior pruning methods are largely context-agnostic: their token selection ignores step-wise relevance and local semantics, which undermines quality. Moreover, their irregular accesses and selection overheads yield only limited wall-clock speedups. To address this, we propose \textbf{CHESS}, an \textit{algorithm-system co-design} KV-cache management system. Algorithmically, CHESS introduces a context-aware, hierarchical selection policy that dynamically reconstructs a coherent context for the current decoding. System-wise, coarse granularity selection eliminates expensive data movement, fully realizing practical acceleration from theoretical sparsity. Extensive evaluations demonstrate that CHESS surpasses Full-KV quality using only \textbf{1\%} of the KV cache, delivers low-latency stable inference with up to \textbf{4.56$\times$} higher throughput, and consistently outperforms other strong baselines. Code is available at \href{https://anonymous.4open.science/r/CHESS-9958/}{https://anonymous.4open.science/r/CHESS/}.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.