2604.20329v1 Apr 22, 2026 cs.CV

이미지 생성 모델은 범용적인 시각 학습 모델이다

Image Generators are Generalist Vision Learners

Jean-Baptiste Alayrac
Jean-Baptiste Alayrac
Citations: 19,234
h-index: 33
Radu Soricut
Radu Soricut
Citations: 27,368
h-index: 38
P. Voigtlaender
P. Voigtlaender
Citations: 10,124
h-index: 23
Yiming Gu
Yiming Gu
Citations: 1
h-index: 1
Yanan Bao
Yanan Bao
Citations: 20
h-index: 2
Valentin Gabeur
Valentin Gabeur
Citations: 0
h-index: 0
Shangbang Long
Shangbang Long
Citations: 1,690
h-index: 11
Songyou Peng
Songyou Peng
Citations: 8
h-index: 1
Shuyang Sun
Shuyang Sun
Citations: 165
h-index: 7
Karen Truong
Karen Truong
Citations: 30
h-index: 2
Zhicheng Wang
Zhicheng Wang
Citations: 17
h-index: 2
Wenlei Zhou
Wenlei Zhou
Citations: 79
h-index: 4
J. Barron
J. Barron
Citations: 34,170
h-index: 59
Kyle Genova
Kyle Genova
Citations: 0
h-index: 0
Nithish Kannen
Nithish Kannen
Citations: 2,485
h-index: 4
Sherry Ben
Sherry Ben
Citations: 0
h-index: 0
Mandy Guo
Mandy Guo
Citations: 14
h-index: 3
Suhas Yogin
Suhas Yogin
Citations: 0
h-index: 0
Huizhong Chen
Huizhong Chen
Citations: 2,557
h-index: 4
Oliver Wang
Oliver Wang
Citations: 4
h-index: 1
Saining Xie
Saining Xie
Citations: 2,376
h-index: 12
Howard Zhou
Howard Zhou
Citations: 21
h-index: 2
Kaiming He
Kaiming He
Citations: 62
h-index: 2
T. Funkhouser
T. Funkhouser
Citations: 63
h-index: 3
Yandong Li
Yandong Li
Citations: 254
h-index: 3

최근 연구 결과에 따르면, 이미지 및 비디오 생성 모델은 제로샷 방식으로 시각적 이해 능력을 보여주는데, 이는 LLM이 생성적 사전 학습을 통해 언어 이해 및 추론 능력을 발전시키는 방식과 유사합니다. 시각적 콘텐츠를 생성하는 능력은 이를 이해하는 능력을 내포한다는 추측은 오래전부터 있었지만, 생성적 시각 모델이 강력한 이해 능력을 개발했다는 명확한 증거는 부족했습니다. 본 연구에서는 이미지 생성 훈련이 LLM 사전 학습과 유사한 역할을 하며, 모델이 강력하고 일반적인 시각적 표현을 학습하여 다양한 시각 작업에서 최첨단 성능을 달성할 수 있음을 보여줍니다. 우리는 instruction-tuning을 통해 구축된 범용 모델인 Vision Banana를 소개합니다. Vision Banana는 Nano Banana Pro (NBP)를 원래 훈련 데이터와 소량의 시각 작업 데이터의 혼합으로 instruction-tuning하여 만들었습니다. 우리는 시각 작업의 출력 공간을 RGB 이미지로 매개변수화함으로써, 인지 과정을 이미지 생성을 통해 원활하게 재구성합니다. 우리의 범용 모델인 Vision Banana는 2D 및 3D 이해를 모두 포함하는 다양한 시각 작업에서 최첨단 결과를 달성하며, Segment Anything Model 3과 같은 제로샷 도메인 전문가 모델을 능가하거나 경쟁합니다. 가벼운 instruction-tuning만으로 이러한 결과를 얻을 수 있으며, 이는 기본 모델의 이미지 생성 능력을 희생하지 않고도 달성 가능한 결과입니다. 이러한 우수한 결과는 이미지 생성 사전 훈련이 범용적인 시각 학습 모델임을 시사합니다. 또한, 이미지 생성이 언어 이해 및 추론에서 텍스트 생성의 역할을 수행하는 것처럼, 시각 작업에 대한 통합적이고 보편적인 인터페이스 역할을 한다는 것을 보여줍니다. 우리는 컴퓨터 비전 분야에서 주요 패러다임 전환이 일어나고 있으며, 생성적 시각 사전 훈련이 생성 및 이해를 모두 위한 핵심적인 기초 시각 모델 구축에 중요한 역할을 할 수 있음을 목격하고 있습니다.

Original Abstract

Recent works show that image and video generators exhibit zero-shot visual understanding behaviors, in a way reminiscent of how LLMs develop emergent capabilities of language understanding and reasoning from generative pretraining. While it has long been conjectured that the ability to create visual content implies an ability to understand it, there has been limited evidence that generative vision models have developed strong understanding capabilities. In this work, we demonstrate that image generation training serves a role similar to LLM pretraining, and lets models learn powerful and general visual representations that enable SOTA performance on various vision tasks. We introduce Vision Banana, a generalist model built by instruction-tuning Nano Banana Pro (NBP) on a mixture of its original training data alongside a small amount of vision task data. By parameterizing the output space of vision tasks as RGB images, we seamlessly reframe perception as image generation. Our generalist model, Vision Banana, achieves SOTA results on a variety of vision tasks involving both 2D and 3D understanding, beating or rivaling zero-shot domain-specialists, including Segment Anything Model 3 on segmentation tasks, and the Depth Anything series on metric depth estimation. We show that these results can be achieved with lightweight instruction-tuning without sacrificing the base model's image generation capabilities. The superior results suggest that image generation pretraining is a generalist vision learner. It also shows that image generation serves as a unified and universal interface for vision tasks, similar to text generation's role in language understanding and reasoning. We could be witnessing a major paradigm shift for computer vision, where generative vision pretraining takes a central role in building Foundational Vision Models for both generation and understanding.

0 Citations
0 Influential
29.5 Altmetric
147.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!