CollectiveKV: 순차 추천에서의 협업 정보 분리 및 공유
CollectiveKV: Decoupling and Sharing Collaborative Information in Sequential Recommendation
순차 추천 모델은 다양한 애플리케이션에서 널리 사용되고 있지만, 엄격한 지연 시간(latency) 요구 사항에 직면해 있습니다. 주류 모델들은 성능 향상을 위해 Transformer 어텐션 메커니즘을 활용하지만, 시퀀스 길이가 길어질수록 연산 복잡도가 증가하여 긴 시퀀스에 대한 지연 시간 문제를 야기합니다. 이에 따라 최근 순차 추천 시스템에서는 추론 지연 시간을 줄이기 위해 KV 캐시 기술이 연구되고 있습니다. 그러나 KV 캐시는 대규모 사용자 기반과 매우 긴 사용자 이력 시퀀스를 가질 수 있는 순차 추천 시스템에서 상당한 저장 공간 오버헤드를 발생시킵니다. 본 연구에서는 서로 다른 사용자 간의 KV 시퀀스가 상당한 유사성을 보인다는 점을 관찰하였으며, 이는 KV 내에 협업 신호가 존재함을 시사합니다. 더 나아가 특이값 분해(SVD)를 사용하여 KV를 분석한 결과, KV 정보가 두 부분으로 나뉠 수 있음을 발견했습니다. 즉, 정보의 대부분은 사용자 간에 공유 가능하며, 일부 소량의 정보만이 사용자 고유의 것입니다. 이에 착안하여, 우리는 사용자 간 KV 공유 메커니즘인 CollectiveKV를 제안합니다. 이 방식은 학습 가능한 글로벌 KV 풀(pool)을 통해 사용자 간에 공유되는 정보를 포착합니다. 추론 시 각 사용자는 풀에서 고차원 공유 KV를 검색하고, 이를 저차원 사용자 고유 KV와 연결하여 최종 KV를 얻습니다. 5가지 순차 추천 모델과 3가지 데이터셋에 대한 실험 결과, 제안하는 방법은 모델 성능을 유지하거나 심지어 향상시키면서도 KV 캐시를 원래 크기의 0.8% 수준으로 압축할 수 있음을 보여줍니다.
Sequential recommendation models are widely used in applications, yet they face stringent latency requirements. Mainstream models leverage the Transformer attention mechanism to improve performance, but its computational complexity grows with the sequence length, leading to a latency challenge for long sequences. Consequently, KV cache technology has recently been explored in sequential recommendation systems to reduce inference latency. However, KV cache introduces substantial storage overhead in sequential recommendation systems, which often have a large user base with potentially very long user history sequences. In this work, we observe that KV sequences across different users exhibit significant similarities, indicating the existence of collaborative signals in KV. Furthermore, we analyze the KV using singular value decomposition (SVD) and find that the information in KV can be divided into two parts: the majority of the information is shareable across users, while a small portion is user-specific. Motivated by this, we propose CollectiveKV, a cross-user KV sharing mechanism. It captures the information shared across users through a learnable global KV pool. During inference, each user retrieves high-dimensional shared KV from the pool and concatenates them with low-dimensional user-specific KV to obtain the final KV. Experiments on five sequential recommendation models and three datasets show that our method can compress the KV cache to only 0.8% of its original size, while maintaining or even enhancing model performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.