VARestorer: 실세계 이미지 초해상화를 위한 일관성 있는 VAR 증류 방법
VARestorer: One-Step VAR Distillation for Real-World Image Super-Resolution
최근 시각적 자기 회귀 모델(VAR)의 발전은 이미지 생성 분야에서 뛰어난 성능을 보여주며, 실세계 이미지 초해상화(Real-ISR)에 대한 잠재력을 제시했습니다. 그러나 VAR을 초해상화에 적용하는 것은 중요한 과제를 안고 있습니다. 원인적 주의(causal attention)에 의해 제한되는 다음 단계 예측 메커니즘은 전역적인 저품질(LQ) 컨텍스트를 충분히 활용하지 못하여 흐릿하고 일관성 없는 고품질(HQ) 결과를 초래합니다. 또한, 반복적인 예측 과정에서 발생하는 오류 누적은 초해상화 작업에서 일관성을 심각하게 저하시킵니다. 이러한 문제점을 해결하기 위해, 우리는 사전 학습된 텍스트-이미지 VAR 모델을 일관성 있는 초해상화 모델로 변환하는 간단하면서도 효과적인 증류 프레임워크인 VARestorer를 제안합니다. 당사 방법은 분포 정합을 활용하여 반복적인 개선 과정을 제거함으로써 오류 확산을 크게 줄이고 추론 시간을 단축합니다. 또한, 교차 스케일 주의(cross-scale attention)를 활용한 피라미드 이미지 컨디셔닝을 도입하여 양방향 스케일 간 상호 작용을 가능하게 하고 입력 이미지 정보를 최대한 활용하면서 자기 회귀 메커니즘에 적응하도록 합니다. 이를 통해 트랜스포머에서 후속 LQ 토큰이 간과되는 것을 방지합니다. 파라미터 효율적인 어댑터(parameter-efficient adapters)를 사용하여 모델 파라미터의 1.2%만 미세 조정함으로써, 당사 방법은 원래 VAR 모델의 표현력을 유지하면서 효율성을 크게 향상시킵니다. 광범위한 실험 결과, VARestorer는 DIV2K 데이터셋에서 72.32 MUSIQ 및 0.7669 CLIPIQA의 최고 성능을 달성했으며, 기존 VAR 추론에 비해 10배 빠른 추론 속도를 제공합니다.
Recent advancements in visual autoregressive models (VAR) have demonstrated their effectiveness in image generation, highlighting their potential for real-world image super-resolution (Real-ISR). However, adapting VAR for ISR presents critical challenges. The next-scale prediction mechanism, constrained by causal attention, fails to fully exploit global low-quality (LQ) context, resulting in blurry and inconsistent high-quality (HQ) outputs. Additionally, error accumulation in the iterative prediction severely degrades coherence in ISR task. To address these issues, we propose VARestorer, a simple yet effective distillation framework that transforms a pre-trained text-to-image VAR model into a one-step ISR model. By leveraging distribution matching, our method eliminates the need for iterative refinement, significantly reducing error propagation and inference time. Furthermore, we introduce pyramid image conditioning with cross-scale attention, which enables bidirectional scale-wise interactions and fully utilizes the input image information while adapting to the autoregressive mechanism. This prevents later LQ tokens from being overlooked in the transformer. By fine-tuning only 1.2\% of the model parameters through parameter-efficient adapters, our method maintains the expressive power of the original VAR model while significantly enhancing efficiency. Extensive experiments show that VARestorer achieves state-of-the-art performance with 72.32 MUSIQ and 0.7669 CLIPIQA on DIV2K dataset, while accelerating inference by 10 times compared to conventional VAR inference.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.