손실 없는 계층적 추론 기반 디코딩을 통한 복잡성 극복
Overcoming Joint Intractability with Lossless Hierarchical Speculative Decoding
스페큘레이티브 디코딩에서 추론 속도를 향상시키면서 분포 정확성을 유지하는 데 있어 검증은 중요한 병목 지점입니다. 최근 연구에 따르면 시퀀스 레벨 검증은 토큰 단위 검증보다 더 많은 수의 토큰을 수용하는 것으로 나타났습니다. 그러나 기존 솔루션은 종종 근사적인 방법을 사용하거나 부분적인 정보에 의해 제약되며, 복합적인 어려움을 해결하는 데 어려움을 겪습니다. 본 연구에서는 손실이 없는 검증 방법인 계층적 스페큘레이티브 디코딩(HSD)을 제안합니다. HSD는 예상되는 수용 토큰 수를 크게 향상시키고, 접근 가능한 분기 간에 과도한 확률 질량을 균형 있게 분산시켜 복합적인 어려움을 극복합니다. 대규모 실험 결과, HSD는 다양한 모델 패밀리 및 벤치마크에서 일관된 수용률 향상을 보여줍니다. 또한, 뛰어난 설명 가능성과 일반성을 통해 다양한 스페큘레이티브 디코딩 프레임워크에 쉽게 통합될 수 있습니다. 특히, HSD를 EAGLE-3에 통합하면 12% 이상의 성능 향상을 달성하여, 분포 정확성을 손상시키지 않고 최첨단 디코딩 효율을 제공합니다. 코드: https://github.com/ZhouYuxuanYX/Hierarchical-Speculative-Decoding
Verification is a key bottleneck in improving inference speed while maintaining distribution fidelity in Speculative Decoding. Recent work has shown that sequence-level verification leads to a higher number of accepted tokens compared to token-wise verification. However, existing solutions often rely on surrogate approximations or are constrained by partial information, struggling with joint intractability. In this work, we propose Hierarchical Speculative Decoding (HSD), a provably lossless verification method that significantly boosts the expected number of accepted tokens and overcomes joint intractability by balancing excess and deficient probability mass across accessible branches. Our extensive large-scale experiments demonstrate that HSD yields consistent improvements in acceptance rates across diverse model families and benchmarks. Moreover, its strong explainability and generality make it readily integrable into a wide range of speculative decoding frameworks. Notably, integrating HSD into EAGLE-3 yields over a 12% performance gain, establishing state-of-the-art decoding efficiency without compromising distribution fidelity. Code is available at https://github.com/ZhouYuxuanYX/Hierarchical-Speculative-Decoding.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.