2604.14885v1 Apr 16, 2026 cs.CL

RACER: 검색 기반 문맥 추론을 활용한 빠른 추론 기반 디코딩

RACER: Retrieval-Augmented Contextual Rapid Speculative Decoding

Ping Wang
Ping Wang
Citations: 146
h-index: 7
Zihong Zhang
Zihong Zhang
Citations: 0
h-index: 0
Z. Li
Z. Li
Citations: 2,245
h-index: 24
Lefei Zhang
Lefei Zhang
Citations: 191
h-index: 6
Hai Zhao
Hai Zhao
Citations: 266
h-index: 8

대규모 언어 모델(LLM)의 자동 회귀 디코딩은 한 단계마다 하나의 토큰을 생성하므로 높은 추론 지연 시간을 초래합니다. 추론 기반 디코딩(SD)은 추측-검증 전략을 통해 이를 완화하지만, 기존의 학습이 필요 없는 방식들은 다음과 같은trade-off를 가지고 있습니다. 검색 기반 초안은 정확한 일치가 없을 때 오류가 발생하며, logits 기반 초안은 구조적 지침이 부족합니다. 본 논문에서는 검색 기반 문맥 추론을 활용한 빠른 추론 기반 디코딩(RACER)이라는 경량의 학습이 필요 없는 방법을 제안합니다. RACER는 검색된 정확한 패턴과 logits 기반의 미래 힌트를 통합하여, 안정적인 기준점과 유연한 외삽을 동시에 제공하여 더욱 풍부한 추론 초안을 생성합니다. Spec-Bench, HumanEval, MGSM-ZH 데이터셋에 대한 실험 결과, RACER는 일관되게 추론 속도를 향상시키며, 자동 회귀 디코딩보다 2배 이상의 속도 향상을 달성하고, 기존의 학습이 필요 없는 방법들보다 성능이 우수합니다. RACER는 효율적인 LLM 디코딩을 위한 확장 가능하고, 쉽게 적용할 수 있는 솔루션을 제공합니다. 저희의 소스 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/hkr04/RACER

Original Abstract

Autoregressive decoding in Large Language Models (LLMs) generates one token per step, causing high inference latency. Speculative decoding (SD) mitigates this through a guess-and-verify strategy, but existing training-free variants face trade-offs: retrieval-based drafts break when no exact match exists, while logits-based drafts lack structural guidance. We propose $\textbf{RACER}$ ($\textbf{R}$etrieval-$\textbf{A}$ugmented $\textbf{C}$ont$\textbf{e}$xtual $\textbf{R}$apid Speculative Decoding), a lightweight and training-free method that integrates retrieved exact patterns with logit-driven future cues. This unification supplies both reliable anchors and flexible extrapolation, yielding richer speculative drafts. Experiments on Spec-Bench, HumanEval, and MGSM-ZH demonstrate that RACER consistently accelerates inference, achieving more than $2\times$ speedup over autoregressive decoding, and outperforms prior training-free methods, offering a scalable, plug-and-play solution for efficient LLM decoding. Our source code is available at $\href{https://github.com/hkr04/RACER}{https://github.com/hkr04/RACER}$.

0 Citations
0 Influential
37.493061443341 Altmetric
187.5 Score
Original PDF
2

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!