HIPPO: 전반적인 인지 기반 병렬 추론적 디코딩을 통한 비디오 거대 언어 모델 추론 가속화
HIPPO: Accelerating Video Large Language Models Inference via Holistic-aware Parallel Speculative Decoding
추론적 디코딩(SD)은 출력 품질을 희생하지 않고 LLM 추론을 가속화하는 유망한 방법으로 부상했습니다. 비디오-LLM에 특화된 기존 SD 방법은 주로 방대한 시각적 입력으로 인한 계산 부담을 완화하기 위해 중복된 시각적 토큰을 제거하는 데 중점을 둡니다. 그러나 기존 방법은 텍스트 전용 LLM과 비교할 수 있는 추론 가속을 달성하지 못합니다. 광범위한 실험을 통해 이 현상은 주로 두 가지 제한 사항에서 비롯된다는 것을 관찰했습니다. (i) 이들의 가지치기 전략은 시각적 의미 토큰을 적절하게 보존하지 못하여 초안 품질과 채택률을 저하시킵니다. (ii) 공격적인 가지치기(예: 시각적 토큰의 90% 제거)를 수행하더라도 초안 모델의 잔여 추론 비용이 전체 속도 향상을 제한합니다. 이러한 제한 사항을 해결하기 위해, 우리는 전반적인 인지 기반 병렬 추론적 디코딩 프레임워크인 HIPPO를 제안합니다. 구체적으로, HIPPO는 (i) 전역 어텐션 점수를 로컬 시각적 의미와 융합하여 높은 가지치기 비율에서도 의미 정보를 유지하는 의미 기반 토큰 보존 방법을 제안하고, (ii) 초안 생성 및 목표 검증 단계를 분리하고 겹치는 비디오 병렬 SD 알고리즘을 제안합니다. 여섯 개의 벤치마크에서 네 가지 비디오-LLM에 대한 실험 결과, HIPPO는 효과적이며, 기존의 자동 회귀 디코딩에 비해 최대 3.51배의 속도 향상을 달성했습니다.
Speculative decoding (SD) has emerged as a promising approach to accelerate LLM inference without sacrificing output quality. Existing SD methods tailored for video-LLMs primarily focus on pruning redundant visual tokens to mitigate the computational burden of massive visual inputs. However, existing methods do not achieve inference acceleration comparable to text-only LLMs. We observe from extensive experiments that this phenomenon mainly stems from two limitations: (i) their pruning strategies inadequately preserve visual semantic tokens, degrading draft quality and acceptance rates; (ii) even with aggressive pruning (e.g., 90% visual tokens removed), the draft model's remaining inference cost limits overall speedup. To address these limitations, we propose HIPPO, a general holistic-aware parallel speculative decoding framework. Specifically, HIPPO proposes (i) a semantic-aware token preservation method, which fuses global attention scores with local visual semantics to retain semantic information at high pruning ratios; (ii) a video parallel SD algorithm that decouples and overlaps draft generation and target verification phases. Experiments on four video-LLMs across six benchmarks demonstrate HIPPO's effectiveness, yielding up to 3.51x speedup compared to vanilla auto-regressive decoding.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.