2603.16792v1 Mar 17, 2026 cs.CV

V-Co: 공동 노이즈 제거를 통한 시각적 표현 정렬에 대한 심층 분석

V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising

Kevin I-Kai Wang
Kevin I-Kai Wang
Citations: 0
h-index: 0
Zun Wang
Zun Wang
Citations: 197
h-index: 5
Jaemin Cho
Jaemin Cho
Allen Institute for AI
Citations: 3,461
h-index: 26
Mohit Bansal
Mohit Bansal
Citations: 881
h-index: 12
Xichen Pan
Xichen Pan
New York University
Citations: 1,431
h-index: 11
Chu Wang
Chu Wang
Citations: 12
h-index: 2

최근 픽셀 공간 확산 모델은 사전 학습된 오토인코더 없이도 고품질 이미지 생성이 가능하여 잠재 공간 확산 모델의 강력한 대안으로 부상했습니다. 그러나 기존의 픽셀 공간 확산 모델은 상대적으로 약한 의미론적 감독 신호를 받으며, 고수준의 시각적 구조를 명시적으로 반영하도록 설계되지 않았습니다. 최근의 표현 정렬 방법(예: REPA)은 사전 학습된 시각적 특징이 확산 모델 훈련을 크게 향상시킬 수 있음을 보여주며, 시각적 공동 노이즈 제거는 이러한 특징을 생성 프로세스에 통합하는 유망한 접근 방식으로 떠오르고 있습니다. 그러나 기존의 공동 노이즈 제거 방법은 종종 여러 설계 요소를 혼합하여 포함하고 있어, 어떤 설계 요소가 실제로 필수적인지 불분명합니다. 따라서 본 연구에서는 JiT 기반의 통일된 프레임워크를 사용하여 시각적 공동 노이즈 제거에 대한 체계적인 연구인 V-Co를 제시합니다. 이러한 통제된 환경을 통해 시각적 공동 노이즈 제거를 효과적으로 만드는 요소를 분리할 수 있습니다. 본 연구는 효과적인 시각적 공동 노이즈 제거를 위한 네 가지 핵심 요소를 밝혀냈습니다. 첫째, 특징별 계산을 유지하면서 유연한 스트림 간 상호 작용을 가능하게 하는 완전한 이중 스트림 아키텍처가 필요합니다. 둘째, 효과적인 분류기-프리 가이드(CFG)를 위해서는 구조적으로 정의된 조건 없는 예측이 필요합니다. 셋째, 강력한 의미론적 감독은 지각적 드리프트를 포함하는 하이브리드 손실을 통해 가장 잘 제공됩니다. 넷째, 안정적인 공동 노이즈 제거를 위해서는 적절한 스트림 간 보정이 필요하며, 이는 RMS 기반의 특징 재조정을 통해 구현됩니다. 이러한 연구 결과는 시각적 공동 노이즈 제거를 위한 간단한 방법을 제시합니다. ImageNet-256 데이터셋에 대한 실험 결과, V-Co는 동일한 모델 크기에서 기존의 픽셀 공간 확산 모델 및 강력한 기존 픽셀 확산 방법보다 우수한 성능을 보였으며, 더 적은 훈련 에포크를 사용합니다. 이러한 결과는 향후 표현 정렬 생성 모델 개발을 위한 실질적인 지침을 제공합니다.

Original Abstract

Pixel-space diffusion has recently re-emerged as a strong alternative to latent diffusion, enabling high-quality generation without pretrained autoencoders. However, standard pixel-space diffusion models receive relatively weak semantic supervision and are not explicitly designed to capture high-level visual structure. Recent representation-alignment methods (e.g., REPA) suggest that pretrained visual features can substantially improve diffusion training, and visual co-denoising has emerged as a promising direction for incorporating such features into the generative process. However, existing co-denoising approaches often entangle multiple design choices, making it unclear which design choices are truly essential. Therefore, we present V-Co, a systematic study of visual co-denoising in a unified JiT-based framework. This controlled setting allows us to isolate the ingredients that make visual co-denoising effective. Our study reveals four key ingredients for effective visual co-denoising. First, preserving feature-specific computation while enabling flexible cross-stream interaction motivates a fully dual-stream architecture. Second, effective classifier-free guidance (CFG) requires a structurally defined unconditional prediction. Third, stronger semantic supervision is best provided by a perceptual-drifting hybrid loss. Fourth, stable co-denoising further requires proper cross-stream calibration, which we realize through RMS-based feature rescaling. Together, these findings yield a simple recipe for visual co-denoising. Experiments on ImageNet-256 show that, at comparable model sizes, V-Co outperforms the underlying pixel-space diffusion baseline and strong prior pixel-diffusion methods while using fewer training epochs, offering practical guidance for future representation-aligned generative models.

0 Citations
0 Influential
13 Altmetric
65.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!