2603.08453v1 Mar 09, 2026 cs.LG

LycheeCluster: 구조 인식 청킹 및 계층적 KV 인덱싱을 통한 효율적인 장문 컨텍스트 추론

LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing

Dongfang Li
Dongfang Li
Citations: 266
h-index: 9
Baotian Hu
Baotian Hu
Citations: 269
h-index: 9
Min Zhang
Min Zhang
Citations: 392
h-index: 11
Zixuan Liu
Zixuan Liu
Citations: 3
h-index: 1
Gang Lin
Gang Lin
Citations: 48
h-index: 2

어텐션 메커니즘의 2차 복잡도와 Key-Value (KV) 캐시의 상당한 메모리 사용량은 장문 컨텍스트를 처리하는 대규모 언어 모델(LLM)에 심각한 계산 및 메모리 문제를 야기합니다. 기존의 검색 기반 방법은 종종 고정 크기 청킹으로 인해 의미적 일관성을 저하시키고, 비효율적인 선형 스캔을 수행합니다. 본 논문에서는 효율적인 KV 캐시 관리를 위한 새로운 방법인 LycheeCluster를 제안합니다. LycheeCluster는 경계 인식 청킹을 통해 지역적 의미적 일관성을 유지하고, 삼각형 부등식을 기반으로 하는 재귀적 계층적 인덱스를 구축합니다. 이러한 설계는 캐시 검색을 선형 스캔에서 이론적으로 제한된, 로그 시간의 가지치기 프로세스로 변환하며, 지연 업데이트 전략은 효율적인 스트리밍 생성을 지원합니다. 실험 결과, LycheeCluster는 모델 성능 저하가 미미한 상태에서 최대 3.6배의 전체 추론 속도 향상을 달성하며, 최첨단 KV 캐시 관리 방법(예: Quest, ClusterKV)보다 우수한 성능을 보였습니다. 공개 후 코드 및 커널을 배포할 예정입니다.

Original Abstract

The quadratic complexity of the attention mechanism and the substantial memory footprint of the Key-Value (KV) cache present severe computational and memory challenges for Large Language Models (LLMs) processing long contexts. Existing retrieval-based methods often compromise semantic integrity through fixed-size chunking and suffer from inefficient linear scanning. In this paper, we propose LycheeCluster, a novel method for efficient KV cache management. LycheeCluster preserves local semantic coherence via boundary-aware chunking and constructs a recursive hierarchical index rooted in the triangle inequality. This design transforms cache retrieval from a linear scan into a theoretically bounded, logarithmic-time pruning process, while a lazy update strategy supports efficient streaming generation. Experiments demonstrate that LycheeCluster achieves up to a 3.6x end-to-end inference speedup with negligible degradation in model performance, outperforming state-of-the-art KV cache management methods (e.g., Quest, ClusterKV). We will release our code and kernels after publication.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!