DeepGen 1.0: 이미지 생성 및 편집 기술 발전을 위한 경량화된 통합 멀티모달 모델
DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing
이미지 생성 및 편집을 위한 최근의 통합 멀티모달 모델들은 주로 막대한 파라미터 규모(예: 10B 이상)에 의존하여 감당하기 힘든 학습 비용과 배포 부담을 수반한다. 본 연구에서는 훨씬 더 큰 기존 모델들과 경쟁하거나 이를 능가하는 종합적인 성능을 달성한 5B 규모의 경량화된 통합 모델인 DeepGen 1.0을 제안한다. 의미론적 이해 및 세밀한 제어 측면에서 소형 모델이 가지는 한계를 극복하기 위해, 우리는 다중 VLM(비전-언어 모델) 계층에서 계층적 특징을 추출하고 이를 학습 가능한 '사고 토큰(think tokens)'과 결합하여 생성 백본에 구조화되고 추론이 풍부한 가이드를 제공하는 심층 정렬 프레임워크인 SCB(Stacked Channel Bridging)를 도입한다. 나아가 우리는 세 가지 점진적인 단계로 구성된 데이터 중심 학습 전략을 설계했다: (1) VLM과 DiT 표현을 동기화하기 위해 대규모 이미지-텍스트 쌍과 편집 트리플릿을 활용한 정렬 사전 학습(Alignment Pre-training), (2) 전방위적 역량을 육성하기 위해 고품질의 생성, 편집 및 추론 작업 혼합 데이터셋에 대한 공동 지도 미세 조정(Joint Supervised Fine-tuning), (3) 보상 함수와 지도 신호의 혼합을 활용하는 MR-GRPO 기반 강화 학습(Reinforcement Learning)으로, 안정적인 학습 진행을 유지하고 시각적 아티팩트를 방지하면서 생성 품질 및 인간 선호도와의 정렬에서 상당한 성능 향상을 이끌어낸다. 약 5천만(50M) 개의 샘플만으로 학습되었음에도 불구하고, DeepGen 1.0은 다양한 벤치마크에서 선도적인 성능을 달성했으며, WISE에서는 80B HunyuanImage를 28% 앞서고 UniREditBench에서는 27B Qwen-Image-Edit를 37% 능가했다. 학습 코드, 모델 가중치 및 데이터셋을 오픈소스로 공개함으로써, 우리는 통합 멀티모달 연구의 대중화를 위한 효율적이고 고성능인 대안을 제공한다.
Current unified multimodal models for image generation and editing typically rely on massive parameter scales (e.g., >10B), entailing prohibitive training costs and deployment footprints. In this work, we present DeepGen 1.0, a lightweight 5B unified model that achieves comprehensive capabilities competitive with or surpassing much larger counterparts. To overcome the limitations of compact models in semantic understanding and fine-grained control, we introduce Stacked Channel Bridging (SCB), a deep alignment framework that extracts hierarchical features from multiple VLM layers and fuses them with learnable 'think tokens' to provide the generative backbone with structured, reasoning-rich guidance. We further design a data-centric training strategy spanning three progressive stages: (1) Alignment Pre-training on large-scale image-text pairs and editing triplets to synchronize VLM and DiT representations, (2) Joint Supervised Fine-tuning on a high-quality mixture of generation, editing, and reasoning tasks to foster omni-capabilities, and (3) Reinforcement Learning with MR-GRPO, which leverages a mixture of reward functions and supervision signals, resulting in substantial gains in generation quality and alignment with human preferences, while maintaining stable training progress and avoiding visual artifacts. Despite being trained on only ~50M samples, DeepGen 1.0 achieves leading performance across diverse benchmarks, surpassing the 80B HunyuanImage by 28% on WISE and the 27B Qwen-Image-Edit by 37% on UniREditBench. By open-sourcing our training code, weights, and datasets, we provide an efficient, high-performance alternative to democratize unified multimodal research.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.