Cheers: 패치 세부 정보를 의미 표현으로부터 분리하여 통합된 다중 모드 이해 및 생성을 가능하게 하는 연구
Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation
최근 다중 모드 모델링 분야에서 중요한 연구 주제는 단일 모델 내에서 시각적 이해와 생성을 통합하는 것입니다. 그러나 두 가지 작업은 일치하지 않는 디코딩 방식과 시각적 표현을 요구하므로, 공유된 특징 공간 내에서 공동 최적화를 수행하는 것은 쉽지 않습니다. 본 연구에서는 Cheers라는 통합된 다중 모드 모델을 제시합니다. Cheers는 패치 수준의 세부 정보를 의미 표현으로부터 분리하여 다중 모드 이해를 위한 의미의 안정성을 높이고, 게이티드 디테일 잔차를 사용하여 이미지 생성의 충실도를 향상시킵니다. Cheers는 세 가지 주요 구성 요소로 구성됩니다. (i) 이미지의 잠재 상태를 효율적인 LLM 조건부 학습을 위한 의미 토큰으로 인코딩하고 압축하는 통합된 비전 토크나이저, (ii) 텍스트 생성에 대한 자동 회귀 디코딩과 이미지 생성에 대한 디퓨전 디코딩을 통합하는 LLM 기반 트랜스포머, (iii) 시각적 의미를 먼저 디코딩하고, 비전 토크나이저로부터 의미적으로 게이팅된 디테일 잔차를 주입하여 고주파 콘텐츠를 개선하는 캐스케이드 플로우 매칭 헤드입니다. 인기 있는 벤치마크에서의 실험 결과, Cheers는 시각적 이해 및 생성 모두에서 최첨단 UMM(Unified Multimodal Models)의 성능과 동등하거나 뛰어넘는 것으로 나타났습니다. 또한 Cheers는 4배의 토큰 압축을 달성하여 더욱 효율적인 고해상도 이미지 인코딩 및 생성을 가능하게 합니다. 주목할 만한 점은 Cheers가 인기 있는 벤치마크 GenEval 및 MMBench에서 Tar-1.5B보다 우수한 성능을 보였으며, 훈련 비용은 20%에 불과하여, 효과적이고 효율적인(즉, 4배의 토큰 압축) 통합된 다중 모드 모델링이 가능하다는 것을 시사합니다. 본 연구에서 사용한 모든 코드와 데이터를 향후 연구를 위해 공개할 예정입니다.
A recent cutting-edge topic in multimodal modeling is to unify visual comprehension and generation within a single model. However, the two tasks demand mismatched decoding regimes and visual representations, making it non-trivial to jointly optimize within a shared feature space. In this work, we present Cheers, a unified multimodal model that decouples patch-level details from semantic representations, thereby stabilizing semantics for multimodal understanding and improving fidelity for image generation via gated detail residuals. Cheers includes three key components: (i) a unified vision tokenizer that encodes and compresses image latent states into semantic tokens for efficient LLM conditioning, (ii) an LLM-based Transformer that unifies autoregressive decoding for text generation and diffusion decoding for image generation, and (iii) a cascaded flow matching head that decodes visual semantics first and then injects semantically gated detail residuals from the vision tokenizer to refine high-frequency content. Experiments on popular benchmarks demonstrate that Cheers matches or surpasses advanced UMMs in both visual understanding and generation. Cheers also achieves 4x token compression, enabling more efficient high-resolution image encoding and generation. Notably, Cheers outperforms the Tar-1.5B on the popular benchmarks GenEval and MMBench, while requiring only 20% of the training cost, indicating effective and efficient (i.e., 4x token compression) unified multimodal modeling. We will release all code and data for future research.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.