LPNSR: LR-가이드 노이즈 예측을 통한 사전 정보 강화 디퓨전 기반 초해상도 이미지 생성
LPNSR: Prior-Enhanced Diffusion Image Super-Resolution via LR-Guided Noise Prediction
디퓨전 기반 이미지 초해상도(SR)는 저해상도(LR) 이미지를 기반으로 고해상도(HR) 이미지를 복원하는 것을 목표로 하며, 추론 효율성과 복원 품질 간의 근본적인 균형을 맞춰야 합니다. 최첨단 잔차 시프트 디퓨전 프레임워크는 효율적인 4단계 추론을 달성하지만, 짧은 샘플링 경로에서는 성능이 크게 저하됩니다. 이는 주로 다음과 같은 두 가지 핵심적인 제한 사항 때문입니다. 첫째, 중간 단계에서 제약 없는 임의의 가우시안 노이즈의 본질적인 비최적성은 오류 누적을 초래하고, 충분한 LR 사전 정보 지침을 제공하지 못합니다. 둘째, 단순한 양방향 보간법을 사용한 초기화 편향이 존재합니다. 본 논문에서는 이러한 문제를 해결하기 위해 사전 정보를 강화하는 효율적인 디퓨전 프레임워크인 LPNSR을 제안합니다. 먼저, 잔차 시프트 디퓨전 패러다임에 대한 최적의 중간 노이즈의 닫힌 형태의 해석적 해를 수학적으로 도출하고, LR 구조적 사전 정보를 역 과정에 통합하면서 프레임워크의 핵심적인 효율적인 잔차 시프트 메커니즘을 완전히 유지하는 LR-가이드 다중 입력 인식 노이즈 예측기를 설계합니다. 또한, 고품질의 사전 업샘플링 네트워크를 사용하여 초기 편향을 완화하고 디퓨전 시작점을 최적화합니다. LPNSR은 짧은 4단계 경로를 통해 엔드-투-엔드 방식으로 최적화될 수 있습니다. 광범위한 실험 결과, LPNSR은 합성 데이터셋과 실제 데이터셋 모두에서 최첨단 시각적 성능을 달성하며, 대규모 텍스트-이미지 사전 정보에 의존하지 않습니다. 저희 방법의 소스 코드는 다음 주소에서 확인할 수 있습니다: https://github.com/Faze-Hsw/LPNSR.
Diffusion-based image super-resolution (SR), which aims to reconstruct high-resolution (HR) images from corresponding low-resolution (LR) observations, faces a fundamental trade-off between inference efficiency and reconstruction quality. The state-of-the-art residual-shifting diffusion framework achieves efficient 4-step inference, yet suffers from severe performance degradation in compact sampling trajectories. This is mainly attributed to two core limitations: the inherent suboptimality of unconstrained random Gaussian noise in intermediate steps, which leads to error accumulation and insufficient LR prior guidance, and the initialization bias caused by naive bicubic upsampling. In this paper, we propose LPNSR, a prior-enhanced efficient diffusion framework to address these issues. We first mathematically derive the closed-form analytical solution of the optimal intermediate noise for the residual-shifting diffusion paradigm, and accordingly design an LR-guided multi-input-aware noise predictor to replace random Gaussian noise, embedding LR structural priors into the reverse process while fully preserving the framework's core efficient residual-shifting mechanism. We further mitigate initial bias with a high-quality pre-upsampling network to optimize the diffusion starting point. With a compact 4-step trajectory, LPNSR can be optimized in an end-to-end manner. Extensive experiments demonstrate that LPNSR achieves state-of-the-art perceptual performance on both synthetic and real-world datasets, without relying on any large-scale text-to-image priors. The source code of our method can be found at https://github.com/Faze-Hsw/LPNSR.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.