더 빠른 자기 회귀 이미지 생성을 위한 추론 과정의 안정화: 스펙티브 디코딩의 어닐링 기반 개선
Annealed Relaxation of Speculative Decoding for Faster Autoregressive Image Generation
자기 회귀 이미지 생성 분야에서 상당한 발전이 있었지만, 자기 회귀 모델의 순차적인 특성과 이미지 토큰의 모호성으로 인해 추론 속도가 여전히 느린 문제가 존재합니다. 일부 연구에서는 이 문제를 해결하기 위해 '완화된 스펙티브 디코딩(relaxed speculative decoding)'을 시도했지만, 이론적인 근거가 부족했습니다. 본 논문에서는 완화된 스펙티브 디코딩의 이론적 기반을 확립하고, 두 가지 핵심 아이디어에 기반한 어닐링 기반의 완화된 스펙티브 디코딩 방법인 COOL-SD를 제안합니다. 첫 번째 아이디어는 대상 모델과 완화된 스펙티브 디코딩 사이의 총 변동(TV) 거리를 분석하여 거리에 대한 상한을 최소화하는 최적의 재샘플링 분포를 도출합니다. 두 번째 아이디어는 섭동 분석을 통해 완화된 스펙티브 디코딩에서 나타나는 어닐링(annealing) 특성을 밝혀내어, 어닐링 기반 설계의 동기를 부여합니다. 이러한 아이디어들을 종합하여 COOL-SD는 이전 방법과 비교하여 동등한 품질로 더 빠르게 이미지를 생성하거나, 유사한 지연 시간 내에 더 높은 품질을 달성할 수 있습니다. 실험 결과는 COOL-SD의 효과를 검증하며, 속도-품질 균형 측면에서 기존 방법보다 일관된 성능 향상을 보여줍니다.
Despite significant progress in autoregressive image generation, inference remains slow due to the sequential nature of AR models and the ambiguity of image tokens, even when using speculative decoding. Recent works attempt to address this with relaxed speculative decoding but lack theoretical grounding. In this paper, we establish the theoretical basis of relaxed SD and propose COOL-SD, an annealed relaxation of speculative decoding built on two key insights. The first analyzes the total variation (TV) distance between the target model and relaxed speculative decoding and yields an optimal resampling distribution that minimizes an upper bound of the distance. The second uses perturbation analysis to reveal an annealing behaviour in relaxed speculative decoding, motivating our annealed design. Together, these insights enable COOL-SD to generate images faster with comparable quality, or achieve better quality at similar latency. Experiments validate the effectiveness of COOL-SD, showing consistent improvements over prior methods in speed-quality trade-offs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.