2602.01274v1 Feb 01, 2026 cs.CL

PACER: 적응적 길이를 갖는 추론 기반 디코딩을 위한 블록 단위 사전 검증

PACER: Blockwise Pre-verification for Speculative Decoding with Adaptive Length

Yifan Zhang
Yifan Zhang
Citations: 237
h-index: 7
Danyang Zhang
Danyang Zhang
Shanghai Jiao Tong University
Citations: 1,411
h-index: 12
Situo Zhang
Situo Zhang
Citations: 149
h-index: 7
Zichen Zhu
Zichen Zhu
Citations: 332
h-index: 9
Hankun Wang
Hankun Wang
Citations: 183
h-index: 6
Da Ma
Da Ma
Citations: 387
h-index: 9
Lu Chen
Lu Chen
Citations: 357
h-index: 10
Kai Yu
Kai Yu
Citations: 421
h-index: 11

추론 기반 디코딩(Speculative Decoding, SD)은 대규모 언어 모델(LLM)의 추론 속도를 향상시키는 강력한 기술로, 정확도를 희생하지 않고 성능을 개선할 수 있습니다. 일반적으로 SD는 작은 초안 모델을 사용하여 고정된 수의 초안 토큰을 생성하고, 생성된 토큰들은 대상 모델에 의해 병렬적으로 검증됩니다. 그러나, 우리의 실험 결과에 따르면, 최적의 초안 길이는 디코딩 단계에 따라 크게 달라집니다. 이러한 변화는 고정된 초안 길이를 사용하는 것이 디코딩 속도 향상에 잠재적인 제한을 초래할 수 있음을 시사합니다. 이러한 문제를 해결하기 위해, 우리는 경량의 학습 가능한 사전 검증 레이어를 사용하여 초안 길이를 동적으로 제어하는 새로운 방법인 Pacer를 제안합니다. 이 레이어는 대상 모델에 초안 토큰을 보내기 전에 블록 단위로 사전 검증을 수행하며, 블록 단위 사전 검증에 실패할 경우 초안 모델이 토큰 생성을 중단할 수 있도록 합니다. 우리는 Pacer를 다양한 SD 모델 쌍에 적용하고, 다양한 벤치마크에서 성능을 평가했습니다. 우리의 결과는 Pacer가 자기 회귀 디코딩에 비해 최대 2.66배의 속도 향상을 달성하며, 표준 추론 기반 디코딩보다 일관되게 우수한 성능을 보인다는 것을 보여줍니다. 또한, Pacer를 Ouroboros와 통합하면 최대 3.09배의 속도 향상을 얻을 수 있습니다.

Original Abstract

Speculative decoding (SD) is a powerful technique for accelerating the inference process of large language models (LLMs) without sacrificing accuracy. Typically, SD employs a small draft model to generate a fixed number of draft tokens, which are then verified in parallel by the target model. However, our experiments reveal that the optimal draft length varies significantly across different decoding steps. This variation suggests that using a fixed draft length limits the potential for further improvements in decoding speed. To address this challenge, we propose Pacer, a novel approach that dynamically controls draft length using a lightweight, trainable pre-verification layer. This layer pre-verifies draft tokens blockwise before they are sent to the target model, allowing the draft model to stop token generation if the blockwise pre-verification fails. We implement Pacer on multiple SD model pairs and evaluate its performance across various benchmarks. Our results demonstrate that Pacer achieves up to 2.66x Speedup over autoregressive decoding and consistently outperforms standard speculative decoding. Furthermore, when integrated with Ouroboros, Pacer attains up to 3.09x Speedup.

0 Citations
0 Influential
6 Altmetric
30.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!