2604.12247v1 Apr 14, 2026 cs.CL

SpecBound: 레이어별 신뢰도 보정 기반의 적응적 경계 자기-추론

SpecBound: Adaptive Bounded Self-Speculation with Layer-wise Confidence Calibration

Zhuofan Wen
Zhuofan Wen
Citations: 251
h-index: 8
Yang Feng
Yang Feng
Citations: 672
h-index: 13

추론 과정의 가속화를 위해, 자기 예측(speculative decoding)은 대규모 언어 모델(LLM)에서 유망한 방법으로 떠올랐습니다. 자기-초안(self-draft) 방법은 기반 LLM 자체를 사용하여 추론을 수행함으로써 보조 초안 모델의 오버헤드를 줄이지만, 다음과 같은 한계점을 가지고 있습니다: 얕은 레이어에서는 종종 과도하게 확신하지만 부정확한 토큰 예측을 생성하며, 초안 시퀀스에 어려운 토큰이 포함될 경우, 깊은 레이어를 통해 불필요한 계산이 발생하여 초안 수용률과 전체적인 속도 향상에 부정적인 영향을 미칩니다. 이러한 문제를 해결하기 위해, 우리는 새로운 자기-초안 프레임워크를 제안합니다. 이 프레임워크는 레이어별 온도 조절(temperature annealing)을 통해 초기 단계에서의 잘못된 신뢰도를 억제하고, 토큰별 디코딩 난이도에 따라 추론 길이를 적응적으로 제한합니다. 제안하는 방법은 초안 토큰의 은닉 상태를 깊은 레이어를 통과하는 병렬 방식으로 재처리하여, 원래 모델과 동일한 출력 결과를 유지하면서 계산 효율성을 극대화합니다. 이 방법은 기반 LLM의 파라미터를 수정할 필요가 없으며, 다양한 장문 생성 작업과 여러 모델 아키텍처에서 표준 자동 회귀 디코딩에 비해 최대 2.33배의 실제 처리 시간 단축 효과를 보입니다.

Original Abstract

Speculative decoding has emerged as a promising approach to accelerate autoregressive inference in large language models (LLMs). Self-draft methods, which leverage the base LLM itself for speculation, avoid the overhead of auxiliary draft models but face limitations: shallow layers often produce overconfident yet incorrect token predictions, and the presence of difficult tokens in a draft sequence forces redundant computation through deeper layers, undermining both draft acceptance and overall speedup. To address these issues, we propose a novel self-draft framework that suppresses spurious confidence via layer-wise temperature annealing in early-exit decision and adaptively bounds speculation length based on token-wise decoding difficulty. By reprocessing the hidden states of draft tokens in a unified parallel pass through deep layers, our method maintains exact output equivalence with the original model while maximizing computational efficiency. It requires no modifications to the base LLM parameters and achieves up to 2.33x wall-time speedup over standard autoregressive decoding across diverse long-form generation tasks and multiple model architectures.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!