SDFP: 훈련이 필요 없고 즉시 사용 가능한 LLM 가속을 위한 FIT 기반 가지치기 모델을 활용한 추측 디코딩
SDFP: Speculative Decoding with FIT-Pruned Models for Training-Free and Plug-and-Play LLM Acceleration
대형 언어 모델(LLM)은 캡션 생성, 검색, 추천 및 창의적 콘텐츠 생성과 같은 대화형 멀티미디어 애플리케이션의 기반이 되지만, 자동회귀적 디코딩 방식은 상당한 지연 시간을 유발합니다. 추측 디코딩(Speculative decoding)은 경량 초안 모델을 사용하여 지연 시간을 줄이지만, 효과적인 초안 모델을 확보, 튜닝 및 유지 관리하는 데 드는 비용과 복잡성으로 인해 실제 배포에 제약이 따르는 경우가 많습니다. 최근의 접근 방식들은 주로 보조 훈련이나 특수화를 요구하며, 훈련이 없는 방식조차도 비용이 많이 드는 탐색이나 최적화 과정을 수반합니다. 이에 우리는 주어진 LLM에 대해 피셔 정보 추적(FIT) 기반 레이어 가지치기(pruning)를 적용하여 초안 모델을 생성하는, 훈련이 전혀 필요 없고 플러그 앤 플레이가 가능한 프레임워크인 SDFP를 제안합니다. 레이어 민감도를 출력 변화의 대리 지표로 활용하는 SDFP는 영향력이 적은 레이어를 제거하여 컴팩트한 초안 모델을 확보하는 동시에, 표준 추측 검증 과정에서 원본 모델과의 호환성을 유지합니다. SDFP는 추가적인 훈련이나 하이퍼파라미터 튜닝, 별도의 초안 모델 관리가 필요하지 않아 신속하고 배포 친화적인 초안 구축을 가능하게 합니다. 벤치마크 결과, SDFP는 타겟 모델의 출력 분포를 변경하지 않으면서 1.32배에서 1.5배의 디코딩 속도 향상을 달성하여 저지연 멀티미디어 애플리케이션을 지원합니다.
Large language models (LLMs) underpin interactive multimedia applications such as captioning, retrieval, recommendation, and creative content generation, yet their autoregressive decoding incurs substantial latency. Speculative decoding reduces latency using a lightweight draft model, but deployment is often limited by the cost and complexity of acquiring, tuning, and maintaining an effective draft model. Recent approaches usually require auxiliary training or specialization, and even training-free methods incur costly search or optimization. We propose SDFP, a fully training-free and plug-and-play framework that builds the draft model via Fisher Information Trace (FIT)-based layer pruning of a given LLM. Using layer sensitivity as a proxy for output perturbation, SDFP removes low-impact layers to obtain a compact draft while preserving compatibility with the original model for standard speculative verification. SDFP needs no additional training, hyperparameter tuning, or separately maintained drafts, enabling rapid, deployment-friendly draft construction. Across benchmarks, SDFP delivers 1.32x-1.5x decoding speedup without altering the target model's output distribution, supporting low-latency multimedia applications.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.