대조 학습 신호를 활용한 확산 모델 기반 재구성을 통해 균형 잡힌 시각적 표현 달성
Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation
대조 언어-이미지 사전 학습(CLIP)에서 시각 인코더의 제한적인 이해 능력은 하위 작업 성능의 주요 병목 현상으로 작용합니다. 이러한 능력에는 클래스 분리도를 나타내는 판별력(D-Ability)과 미세한 시각적 특징에 집중하는 세부 인식 능력(P-Ability)이 모두 포함됩니다. 최근 연구에서는 확산 모델을 사용하여 CLIP 시각 토큰에 기반하여 이미지 재구성을 조건화함으로써 표현력을 향상시키는 방법을 사용합니다. 그러나 이러한 방식은 판별력을 저하시켜 CLIP의 표현 능력 제한을 효과적으로 해결하지 못할 수 있다는 점을 주장합니다. 이러한 문제를 해결하기 위해, 우리는 확산 모델 기반 재구성에 대조 학습 신호를 통합하여 보다 포괄적인 시각적 표현을 추구합니다. 우리는 먼저 입력 이미지에 대한 대조 학습을 확산 과정에 통합하는 간단한 설계를 사용합니다. 그러나 실험 결과, 이러한 단순한 결합 방식은 기울기 충돌 문제를 야기하며 최적의 성능을 달성하지 못하는 것으로 나타났습니다. 이러한 문제를 해결하기 위해, 우리는 학습 목표를 통합하는 Diffusion Contrastive Reconstruction (DCR) 방법을 제안합니다. 핵심 아이디어는 원래 입력 이미지가 아닌, 각 재구성된 이미지에서 파생된 대조 신호를 확산 과정에 주입하는 것입니다. 우리의 이론적 분석에 따르면, DCR 손실 함수는 판별력과 세부 인식 능력을 동시에 최적화할 수 있습니다. 다양한 벤치마크 및 다중 모드 대규모 언어 모델을 사용한 광범위한 실험을 통해, 제안하는 방법의 효과를 검증했습니다. 코드 및 관련 자료는 다음 링크에서 확인할 수 있습니다: https://github.com/boyuh/DCR.
The limited understanding capacity of the visual encoder in Contrastive Language-Image Pre-training (CLIP) has become a key bottleneck for downstream performance. This capacity includes both Discriminative Ability (D-Ability), which reflects class separability, and Detail Perceptual Ability (P-Ability), which focuses on fine-grained visual cues. Recent solutions use diffusion models to enhance representations by conditioning image reconstruction on CLIP visual tokens. We argue that such paradigms may compromise D-Ability and therefore fail to effectively address CLIP's representation limitations. To address this, we integrate contrastive signals into diffusion-based reconstruction to pursue more comprehensive visual representations. We begin with a straightforward design that augments the diffusion process with contrastive learning on input images. However, empirical results show that the naive combination suffers from gradient conflict and yields suboptimal performance. To balance the optimization, we introduce the Diffusion Contrastive Reconstruction (DCR), which unifies the learning objective. The key idea is to inject contrastive signals derived from each reconstructed image, rather than from the original input, into the diffusion process. Our theoretical analysis shows that the DCR loss can jointly optimize D-Ability and P-Ability. Extensive experiments across various benchmarks and multi-modal large language models validate the effectiveness of our method. The code is available at https://github.com/boyuh/DCR.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.