2603.03241v1 Mar 03, 2026 cs.CV

UniG2U-Bench: 통합 모델이 다중 모드 이해를 향상시키는가?

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Yujiang Wang
Yujiang Wang
Citations: 31
h-index: 4
Xiaoyu Chen
Xiaoyu Chen
Citations: 347
h-index: 5
Zimo Wen
Zimo Wen
Citations: 0
h-index: 0
Boxiu Li
Boxiu Li
Citations: 20
h-index: 3
Junxiang Lei
Junxiang Lei
Citations: 0
h-index: 0
Yijia Fan
Yijia Fan
Citations: 0
h-index: 0
Lili Qiu
Lili Qiu
Citations: 65
h-index: 5
Ziwei Liu
Ziwei Liu
Citations: 2,903
h-index: 9
Caihua Shan
Caihua Shan
Citations: 242
h-index: 7
Yifan Yang
Yifan Yang
Citations: 48
h-index: 4
Wan-Yue Zhang
Wan-Yue Zhang
Citations: 0
h-index: 0
Qi Zhang
Qi Zhang
Citations: 66
h-index: 6
Bo Li
Bo Li
Citations: 3,257
h-index: 7
Yifei Shen
Yifei Shen
Citations: 11
h-index: 1

최근 통합 다중 모드 모델은 강력한 생성 능력을 보여주었지만, 생성 과정이 이해를 향상시키는지, 그리고 언제 그러한 향상을 보이는지는 명확하지 않습니다. 기존의 벤치마크는 생성 능력이 이해를 돕는 특정 작업들을 체계적으로 탐구하지 못하고 있습니다. 이에, 본 연구에서는 7가지 영역과 30개의 하위 작업으로 구성된 포괄적인 벤치마크인 UniG2U-Bench를 소개합니다. UniG2U-Bench는 다양한 수준의 암묵적이거나 명시적인 시각적 변환을 요구합니다. 30개 이상의 모델에 대한 광범위한 평가 결과, 세 가지 주요 결과를 도출했습니다. 1) 통합 모델은 일반적으로 기본 비전-언어 모델(VLMs)보다 성능이 떨어지며, 생성 후 답변(GtA) 추론은 일반적으로 직접 추론보다 성능을 저하시킵니다. 2) 공간 지능, 시각적 착시, 다중 라운드 추론과 같은 하위 작업에서 일관된 성능 향상이 나타나며, 이는 향상된 공간 및 형태 인식, 그리고 다단계 중간 이미지 상태가 도움이 된다는 것을 보여줍니다. 3) 유사한 추론 구조를 가진 작업과 동일한 아키텍처를 공유하는 모델은 상관관계를 보이는 경향이 있으며, 이는 생성-이해 결합이 작업, 사전 학습 데이터, 모델 아키텍처에 걸쳐 일관된 귀납적 편향을 유도한다는 것을 시사합니다. 이러한 결과는 통합 다중 모드 모델의 잠재력을 최대한 발휘하기 위해서는 더욱 다양하고 혁신적인 학습 데이터와 패러다임이 필요하다는 점을 강조합니다.

Original Abstract

Unified multimodal models have recently demonstrated strong generative capabilities, yet whether and when generation improves understanding remains unclear. Existing benchmarks lack a systematic exploration of the specific tasks where generation facilitates understanding. To this end, we introduce UniG2U-Bench, a comprehensive benchmark categorizing generation-to-understanding (G2U) evaluation into 7 regimes and 30 subtasks, requiring varying degrees of implicit or explicit visual transformations. Extensive evaluation of over 30 models reveals three core findings: 1) Unified models generally underperform their base Vision-Language Models (VLMs), and Generate-then-Answer (GtA) inference typically degrades performance relative to direct inference. 2) Consistent enhancements emerge in spatial intelligence, visual illusions, or multi-round reasoning subtasks, where enhanced spatial and shape perception, as well as multi-step intermediate image states, prove beneficial. 3) Tasks with similar reasoning structures and models sharing architectures exhibit correlated behaviors, suggesting that generation-understanding coupling induces class-consistent inductive biases over tasks, pretraining data, and model architectures. These findings highlight the necessity for more diverse training data and novel paradigms to fully unlock the potential of unified multimodal modeling.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!