MemoSight: 문맥 압축과 다중 토큰 예측의 통합을 통한 추론 속도 향상
MemoSight: Unifying Context Compression and Multi Token Prediction for Reasoning Acceleration
체인-오브-소트(Chain-of-thought, CoT) 추론은 LLM이 어려운 추론 문제를 해결하도록 돕지만, 생성된 토큰 수에 따라 KV 캐시가 선형적으로 증가함에 따라 CoT 추론은 속도 및 메모리 사용량 측면에서 확장성 문제를 겪습니다. 본 연구에서는 효율성 문제를 완화하면서 CoT 추론 성능을 유지하기 위해 문맥 압축과 다중 토큰 예측을 통합한 통합 프레임워크인 MemoSight(Memory-Foresight-based reasoning)를 제안합니다. 우리의 프레임워크는 특별한 토큰과 각 토큰 유형에 맞게 설계된 위치 정보를 활용하여 문맥 압축과 다중 토큰 예측 모두에 동일한 최소한의 디자인을 적용합니다. 네 가지 추론 벤치마크에 대한 종합적인 실험 결과, MemoSight는 KV 캐시 사용량을 최대 66%까지 줄이고 추론 속도를 1.56배 향상시키며, 기존의 CoT 압축 방법보다 우수한 성능을 보임을 입증했습니다.
While Chain-of-thought (CoT) reasoning enables LLMs to solve challenging reasoning problems, as KV cache grows linearly with the number of generated tokens, CoT reasoning faces scaling issues in terms of speed and memory usage. In this work, we propose MemoSight (Memory-Foresight-based reasoning), a unified framework that integrates both context compression and multi-token prediction to mitigate the efficiency issues while maintaining CoT reasoning performance. Our framework adopts the same minimalist design for both context compression and multi-token prediction via special tokens and their corresponding position layout tailored to each token type. Comprehensive experiments on four reasoning benchmarks demonstrate that MemoSight reduces the KV cache footprint by up to 66% and accelerates inference by 1.56x, while outperforming existing CoT compression methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.