SideQuest: 모델 기반 KV 캐시 관리 - 장기적인 에이전트 기반 추론을 위한 방법
SideQuest: Model-Driven KV Cache Management for Long-Horizon Agentic Reasoning
심층 연구와 같이 장기간에 걸쳐 수행되는 에이전트 기반 작업은 여러 웹페이지와 문서에 분산된 정보에 대한 다단계 추론을 필요로 합니다. 이러한 작업에서 LLM 컨텍스트는 외부 검색에서 가져온 토큰에 의해 지배되므로 메모리 사용량이 급격히 증가하고 디코딩 성능이 제한됩니다. 긴 컨텍스트 입력을 위한 여러 가지 KV 캐시 압축 기술이 존재하지만, 기존의 휴리스틱 방법은 다단계 추론 모델을 효과적으로 지원하지 못하는 것으로 나타났습니다. 우리는 이러한 문제를 SideQuest라는 새로운 접근 방식을 통해 해결합니다. SideQuest는 Large Reasoning Model (LRM) 자체를 활용하여 컨텍스트 내 토큰의 유용성을 추론함으로써 KV 캐시 압축을 수행합니다. 이 관리 프로세스와 관련된 토큰이 모델의 메모리를 오염시키는 것을 방지하기 위해, 우리는 KV 캐시 압축을 주된 추론 작업과 병렬로 실행되는 보조 작업으로 간주합니다. 단 215개의 샘플로 학습된 모델을 사용한 평가 결과, SideQuest는 에이전트 기반 작업에서 최대 65%까지 피크 토큰 사용량을 줄이는 동시에 정확도 저하를 최소화하며, 기존의 휴리스틱 기반 KV 캐시 압축 기술보다 우수한 성능을 보입니다.
Long-running agentic tasks, such as deep research, require multi-hop reasoning over information distributed across multiple webpages and documents. In such tasks, the LLM context is dominated by tokens from external retrieval, causing memory usage to grow rapidly and limiting decode performance. While several KV cache compression techniques exist for long-context inputs, we find that existing heuristics fail to support multi-step reasoning models effectively. We address this challenge with SideQuest -- a novel approach that leverages the Large Reasoning Model (LRM) itself to perform KV cache compression by reasoning about the usefulness of tokens in its context. To prevent the tokens associated with this management process from polluting the model's memory, we frame KV cache compression as an auxiliary task executed in parallel to the main reasoning task. Our evaluations, using a model trained with just 215 samples, show that SideQuest reduces peak token usage by up to 65% on agentic tasks with minimal degradation in accuracy, outperforming heuristic-based KV cache compression techniques.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.