SparkVSR: 희소 키프레임 전파를 통한 대화형 비디오 초해상도
SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation
비디오 초해상도(VSR)는 저해상도(LR) 프레임으로부터 고품질 비디오 프레임을 복원하는 것을 목표로 하지만, 대부분의 기존 VSR 방법은 추론 시 블랙박스처럼 동작하여 사용자에게 예상치 못한 왜곡을 수정할 수 있는 기능을 제공하지 못하고, 모델이 생성하는 결과물을 그대로 받아들여야 합니다. 본 논문에서는 희소 키프레임을 간단하고 표현력이 뛰어난 제어 신호로 활용하는 새로운 대화형 VSR 프레임워크인 SparkVSR을 제안합니다. 구체적으로, 사용자는 먼저 기존의 이미지 초해상도(ISR) 모델을 사용하여 일부 키프레임을 초해상도 처리하거나, 선택적으로 처리할 수 있습니다. 그런 다음 SparkVSR은 키프레임 정보를 전체 비디오 시퀀스로 전파하면서 원본 LR 비디오의 움직임 정보를 유지합니다. 구체적으로, LR 비디오의 잠재 변수와 희소하게 인코딩된 고해상도(HR) 키프레임의 잠재 변수를 결합하여 강력한 공간 간 전파를 학습하고 시각적 디테일을 개선하는 키프레임 기반의 2단계 학습 파이프라인을 제안합니다. 추론 시, SparkVSR은 유연한 키프레임 선택(수동 지정, 코덱 I-프레임 추출 또는 랜덤 샘플링)과 참조 없이 작동하는 가이드 메커니즘을 지원하여, 참조 키프레임이 없을 때나 품질이 좋지 않은 경우에도 안정적인 성능을 보장합니다. 여러 VSR 벤치마크에서의 실험 결과, SparkVSR은 향상된 시간적 일관성과 뛰어난 복원 품질을 보여주었으며, CLIP-IQA, DOVER 및 MUSIQ에서 각각 최대 24.6%, 21.8% 및 5.6%의 성능 향상을 달성했습니다. 이를 통해 사용자가 키프레임을 기반으로 제어할 수 있는 비디오 초해상도를 구현할 수 있습니다. 또한, SparkVSR은 기존의 VSR 프레임워크와 달리, 다양한 작업에 적용 가능한 범용적인 대화형, 키프레임 기반 비디오 처리 프레임워크임을 보여줍니다. 예를 들어, 오래된 영화 복원 및 비디오 스타일 변환과 같은 새로운 작업에도 쉽게 적용할 수 있습니다. 프로젝트 페이지는 다음 링크에서 확인할 수 있습니다: https://sparkvsr.github.io/
Video Super-Resolution (VSR) aims to restore high-quality video frames from low-resolution (LR) estimates, yet most existing VSR approaches behave like black boxes at inference time: users cannot reliably correct unexpected artifacts, but instead can only accept whatever the model produces. In this paper, we propose a novel interactive VSR framework dubbed SparkVSR that makes sparse keyframes a simple and expressive control signal. Specifically, users can first super-resolve or optionally a small set of keyframes using any off-the-shelf image super-resolution (ISR) model, then SparkVSR propagates the keyframe priors to the entire video sequence while remaining grounded by the original LR video motion. Concretely, we introduce a keyframe-conditioned latent-pixel two-stage training pipeline that fuses LR video latents with sparsely encoded HR keyframe latents to learn robust cross-space propagation and refine perceptual details. At inference time, SparkVSR supports flexible keyframe selection (manual specification, codec I-frame extraction, or random sampling) and a reference-free guidance mechanism that continuously balances keyframe adherence and blind restoration, ensuring robust performance even when reference keyframes are absent or imperfect. Experiments on multiple VSR benchmarks demonstrate improved temporal consistency and strong restoration quality, surpassing baselines by up to 24.6%, 21.8%, and 5.6% on CLIP-IQA, DOVER, and MUSIQ, respectively, enabling controllable, keyframe-driven video super-resolution. Moreover, we demonstrate that SparkVSR is a generic interactive, keyframe-conditioned video processing framework as it can be applied out of the box to unseen tasks such as old-film restoration and video style transfer. Our project page is available at: https://sparkvsr.github.io/
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.