OpenVision 3: 이해 및 생성을 위한 통합 시각 인코더 패밀리
OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation
본 논문에서는 OpenVision 3이라는 이름의 고급 시각 인코더 패밀리를 소개합니다. 이 인코더는 이미지 이해와 이미지 생성 모두에 활용될 수 있는 단일하고 통합된 시각적 표현을 학습합니다. 저희의 핵심 아키텍처는 간단합니다. VAE로 압축된 이미지 데이터를 ViT 인코더에 입력하고, 출력 결과를 두 가지 상호 보완적인 역할에 활용하여 학습합니다. 첫째, 인코더의 출력은 ViT-VAE 디코더에 전달되어 원본 이미지를 재구성함으로써, 표현이 생성적 구조를 잘 포착하도록 유도합니다. 둘째, 동일한 표현은 콘트라스트 학습 및 이미지-캡션 학습 목표를 통해 최적화되어 의미론적 특징을 강화합니다. 재구성 및 의미론적 신호를 공유된 잠재 공간에서 공동으로 최적화함으로써, 인코더는 두 영역 모두에서 시너지 효과를 내고 잘 일반화되는 표현을 학습합니다. 저희는 인코더를 고정 상태로 유지한 채 다양한 후속 평가를 통해 이러한 통합 설계를 검증했습니다. 다중 모드 이해를 위해, 저희는 인코더를 LLaVA-1.5 프레임워크에 통합했습니다. 결과는 표준 CLIP 시각 인코더와 비교하여 유사한 성능을 보였습니다 (예: SeedBench에서 62.4 vs 62.2, POPE에서 83.7 vs 82.9). 생성 측면에서, 저희는 RAE 프레임워크 하에서 테스트를 진행했으며, 저희 모델은 표준 CLIP 기반 인코더보다 훨씬 뛰어난 성능을 보였습니다 (예: ImageNet에서 gFID: 1.89 vs 2.54). 본 연구가 통합 모델링 분야의 미래 연구를 촉진하기를 바랍니다.
This paper presents a family of advanced vision encoder, named OpenVision 3, that learns a single, unified visual representation that can serve both image understanding and image generation. Our core architecture is simple: we feed VAE-compressed image latents to a ViT encoder and train its output to support two complementary roles. First, the encoder output is passed to the ViT-VAE decoder to reconstruct the original image, encouraging the representation to capture generative structure. Second, the same representation is optimized with contrastive learning and image-captioning objectives, strengthening semantic features. By jointly optimizing reconstruction- and semantics-driven signals in a shared latent space, the encoder learns representations that synergize and generalize well across both regimes. We validate this unified design through extensive downstream evaluations with the encoder frozen. For multimodal understanding, we plug the encoder into the LLaVA-1.5 framework: it performs comparably with a standard CLIP vision encoder (e.g., 62.4 vs 62.2 on SeedBench, and 83.7 vs 82.9 on POPE). For generation, we test it under the RAE framework: ours substantially surpasses the standard CLIP-based encoder (e.g., gFID: 1.89 vs 2.54 on ImageNet). We hope this work can spur future research on unified modeling.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.