주파수 인지 확산 사전 정제 기반의 효율적인 저비트율 이미지 압축 연구
Towards Efficient Low-rate Image Compression with Frequency-aware Diffusion Prior Refinement
최근 확산 기반 생성 모델의 발전은 극히 낮은 비트율에서도 시각적으로 만족스러운 이미지 압축을 가능하게 했습니다. 그러나 기존 방법은 분산된 학습 방식 때문에 샘플링 속도가 느리고 최적의 비트 할당이 어렵다는 단점이 있습니다. 본 연구에서는 효율적이고 고품질의 이미지 복원을 위한 새로운 압축 프레임워크인 Accelerate extbf{Diff}usion-based Image Compression via extbf{C}onsistency Prior extbf{R}efinement (DiffCR)를 제안합니다. DiffCR의 핵심은 사전 학습된 잠재 확산 모델의 ε-예측 사전을 정제하고, 주파수 분리 어텐션(FDA)을 통해 다양한 타임스텝에서의 압축된 잠재 변수와 일치시키는 주파수 인지 스킵 추정(FaSE) 모듈입니다. 또한, 경량화된 일관성 추정기는 의미론적 경로를 보존하여 빠른 extbf{두 단계 디코딩}을 가능하게 합니다. DiffCR은 핵심 확산 모델을 업데이트하지 않고도 상당한 비트율 절감 효과(LPIPS 기준 27.2% BD-rate, PSNR 기준 65.1% BD-rate)를 달성하며, 최첨단 확산 기반 압축 방법보다 10배 이상 빠른 속도를 보입니다.
Recent advancements in diffusion-based generative priors have enabled visually plausible image compression at extremely low bit rates. However, existing approaches suffer from slow sampling processes and suboptimal bit allocation due to fragmented training paradigms. In this work, we propose Accelerate \textbf{Diff}usion-based Image Compression via \textbf{C}onsistency Prior \textbf{R}efinement (DiffCR), a novel compression framework for efficient and high-fidelity image reconstruction. At the heart of DiffCR is a Frequency-aware Skip Estimation (FaSE) module that refines the $ε$-prediction prior from a pre-trained latent diffusion model and aligns it with compressed latents at different timesteps via Frequency Decoupling Attention (FDA). Furthermore, a lightweight consistency estimator enables fast \textbf{two-step decoding} by preserving the semantic trajectory of diffusion sampling. Without updating the backbone diffusion model, DiffCR achieves substantial bitrate savings (27.2\% BD-rate (LPIPS) and 65.1\% BD-rate (PSNR)) and over $10\times$ speed-up compared to SOTA diffusion-based compression baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.