AlignVAR: 이미지 초해상화를 위한 전역적으로 일관된 시각적 자기회귀 모델
AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution
시각적 자기회귀(VAR) 모델은 최근 이미지 생성 분야에서 안정적인 학습, 비반복적 추론, 그리고 다음 스케일 예측을 통한 고품질 합성을 제공하는 유망한 대안으로 등장했습니다. 이는 이미지 초해상화(ISR) 분야에서 VAR 모델의 활용 가능성을 높이지만, 여전히 연구가 부족하며, 공간 구조를 파편화하는 지역 편향 주의 메커니즘과, 오차를 스케일별로 누적시켜 재구성된 이미지의 전역적 일관성을 저해하는 잔차 기반 지도 학습이라는 두 가지 중요한 과제를 안고 있습니다. 이러한 문제를 해결하기 위해, 본 연구에서는 ISR에 특화된 전역적으로 일관된 시각적 자기회귀 프레임워크인 AlignVAR를 제안합니다. AlignVAR은 다음과 같은 두 가지 핵심 구성 요소를 특징으로 합니다. (1) 공간 일관성 자기회귀(SCA): 이는 적응형 마스크를 사용하여 주의 메커니즘을 재가중하여, 과도한 지역 편향을 완화하고 장거리 의존성을 강화합니다. (2) 계층적 일관성 제약(HCC): 이는 각 스케일에서 잔차 학습에 전체 재구성 지침을 추가하여, 누적된 오차를 초기에 파악하고 조잡한 단계부터 세밀한 단계까지의 정제 과정을 안정화합니다. 광범위한 실험 결과는 AlignVAR가 기존 생성 모델보다 구조적 일관성과 시각적 충실도를 향상시키며, 선도적인 확산 모델 기반 접근 방식보다 10배 빠른 추론 속도를 제공하고 약 50% 더 적은 파라미터를 사용한다는 것을 보여줍니다. 이는 효율적인 ISR을 위한 새로운 패러다임을 제시합니다.
Visual autoregressive (VAR) models have recently emerged as a promising alternative for image generation, offering stable training, non-iterative inference, and high-fidelity synthesis through next-scale prediction. This encourages the exploration of VAR for image super-resolution (ISR), yet its application remains underexplored and faces two critical challenges: locality-biased attention, which fragments spatial structures, and residual-only supervision, which accumulates errors across scales, severely compromises global consistency of reconstructed images. To address these issues, we propose AlignVAR, a globally consistent visual autoregressive framework tailored for ISR, featuring two key components: (1) Spatial Consistency Autoregression (SCA), which applies an adaptive mask to reweight attention toward structurally correlated regions, thereby mitigating excessive locality and enhancing long-range dependencies; and (2) Hierarchical Consistency Constraint (HCC), which augments residual learning with full reconstruction supervision at each scale, exposing accumulated deviations early and stabilizing the coarse-to-fine refinement process. Extensive experiments demonstrate that AlignVAR consistently enhances structural coherence and perceptual fidelity over existing generative methods, while delivering over 10x faster inference with nearly 50% fewer parameters than leading diffusion-based approaches, establishing a new paradigm for efficient ISR.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.