StyleVAR: 시각적 자기회귀 모델을 활용한 제어 가능한 이미지 스타일 변환
StyleVAR: Controllable Image Style Transfer via Visual Autoregressive Modeling
본 연구에서는 시각적 자기회귀 모델(VAR) 프레임워크를 기반으로 스타일 변환을 학습된 잠재 공간 내에서의 조건부 이산 시퀀스 모델링 문제로 정의합니다. 이미지는 다중 스케일 표현으로 분해되고, VQ-VAE를 사용하여 이산 코드로 토큰화됩니다. 이후, 트랜스포머 모델이 스타일 및 콘텐츠 토큰에 조건화되어 대상 토큰의 분포를 자기회귀적으로 모델링합니다. 스타일 및 콘텐츠 정보를 주입하기 위해, 우리는 진화하는 대상 표현이 자체 이력을 참조하는 블렌디드 크로스-어텐션 메커니즘을 도입합니다. 이때, 스타일 및 콘텐츠 특징은 쿼리로 작용하여 이 역사에서 어떤 측면을 강조할지 결정합니다. 스케일 의존적인 블렌딩 계수는 각 단계에서 스타일과 콘텐츠의 상대적인 영향력을 제어하여, 합성된 표현이 콘텐츠 구조와 스타일 텍스처에 모두 부합하도록 하면서 VAR의 자기회귀 연속성을 유지하도록 합니다. StyleVAR은 사전 학습된 VAR 체크포인트를 기반으로 두 단계로 학습됩니다. 첫 번째 단계는 콘텐츠-스타일-대상 이미지의 대규모 트리플 데이터셋에 대한 지도 학습 미세 조정이며, 두 번째 단계는 DreamSim 기반의 지각적 보상에 대한 그룹 상대 정책 최적화(GRPO)를 통한 강화 학습 미세 조정입니다. GRPO 단계는 VAR의 다중 스케일 계층 구조에 대한 액션별 정규화 가중치를 사용하여 보상을 재조정합니다. 세 가지 벤치마크를 통해 StyleVAR은 AdaIN 기준 모델보다 스타일 손실, 콘텐츠 손실, LPIPS, SSIM, DreamSim 및 CLIP 유사성 측면에서 일관되게 우수한 성능을 보입니다. 또한, GRPO 단계는 지도 학습 미세 조정 체크포인트보다 더 큰 성능 향상을 가져다주며, 특히 보상에 연동된 지각적 지표에서 두드러집니다. 질적으로, 이 방법은 의미론적 구조를 유지하면서 텍스처를 변환하며, 특히 풍경 및 건축 장면에서 효과적입니다. 그러나 인터넷 이미지에 대한 일반화 격차와 인간 얼굴에 대한 어려움은 더 나은 콘텐츠 다양성과 더 강력한 구조적 사전 지식의 필요성을 시사합니다.
We build on the Visual Autoregressive Modeling (VAR) framework and formulate style transfer as conditional discrete sequence modeling in a learned latent space. Images are decomposed into multi-scale representations and tokenized into discrete codes by a VQ-VAE; a transformer then autoregressively models the distribution of target tokens conditioned on style and content tokens. To inject style and content information, we introduce a blended cross-attention mechanism in which the evolving target representation attends to its own history, while style and content features act as queries that decide which aspects of this history to emphasize. A scale-dependent blending coefficient controls the relative influence of style and content at each stage, encouraging the synthesized representation to align with both the content structure and the style texture without breaking the autoregressive continuity of VAR. We train StyleVAR in two stages from a pretrained VAR checkpoint: supervised fine-tuning on a large triplet dataset of content--style--target images, followed by reinforcement fine-tuning with Group Relative Policy Optimization (GRPO) against a DreamSim-based perceptual reward, with per-action normalization weighting to rebalance credit across VAR's multi-scale hierarchy. Across three benchmarks spanning in-, near-, and out-of-distribution regimes, StyleVAR consistently outperforms an AdaIN baseline on Style Loss, Content Loss, LPIPS, SSIM, DreamSim, and CLIP similarity, and the GRPO stage yields further gains over the SFT checkpoint, most notably on the reward-aligned perceptual metrics. Qualitatively, the method transfers texture while maintaining semantic structure, especially for landscapes and architectural scenes, while a generalization gap on internet images and difficulty with human faces highlight the need for better content diversity and stronger structural priors.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.