2604.10784v1 Apr 12, 2026 cs.AI

TorchUMM: 평가, 분석 및 추가 훈련을 위한 통합 멀티모달 모델 코드베이스

TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training

Sharon Li
Sharon Li
Citations: 278
h-index: 5
Yinyi Luo
Yinyi Luo
Citations: 24
h-index: 2
Marios Savvides
Marios Savvides
Citations: 25
h-index: 2
Jindong Wang
Jindong Wang
Citations: 57
h-index: 2
Hongyuan Zhu
Hongyuan Zhu
Citations: 58
h-index: 2
Wenwen Wang
Wenwen Wang
Citations: 35
h-index: 4
Hayes Bai
Hayes Bai
Citations: 2
h-index: 1
Hao Chen
Hao Chen
Citations: 60
h-index: 4
Pan He
Pan He
Citations: 26
h-index: 2

최근 통합 멀티모달 모델(Unified Multimodal Models, UMM) 분야의 발전으로 인해 시각 및 텍스트 모달리티를 이해, 생성 및 편집할 수 있는 다양한 아키텍처가 등장했습니다. 그러나 모델 아키텍처의 다양성과 훈련 패러다임 및 구현 세부 사항의 이질성으로 인해 UMM을 위한 통합 프레임워크를 개발하는 것은 여전히 어려운 과제입니다. 본 논문에서는 다양한 UMM 백본, 작업 및 데이터 세트를 포괄하는 종합적인 평가, 분석 및 추가 훈련을 위한 최초의 통합 코드베이스인 TorchUMM을 소개합니다. TorchUMM은 다양한 규모와 설계 패러다미를 포괄하는 광범위한 모델을 지원합니다. 당사의 벤치마크는 멀티모달 이해, 생성 및 편집이라는 세 가지 핵심 작업 차원을 포함하며, 인지, 추론, 구성성 및 지시 따르기 능력을 평가하기 위해 기존 및 새로운 데이터 세트를 통합합니다. TorchUMM은 통합 인터페이스와 표준화된 평가 프로토콜을 제공하여 이질적인 모델 간의 공정하고 재현 가능한 비교를 가능하게 하고, 모델의 장점과 한계에 대한 더 깊은 통찰력을 제공하여 보다 강력한 통합 멀티모달 시스템의 개발을 촉진합니다. 코드는 다음 위치에서 확인할 수 있습니다: https://github.com/AIFrontierLab/TorchUMM.

Original Abstract

Recent advances in unified multimodal models (UMMs) have led to a proliferation of architectures capable of understanding, generating, and editing across visual and textual modalities. However, developing a unified framework for UMMs remains challenging due to the diversity of model architectures and the heterogeneity of training paradigms and implementation details. In this paper, we present TorchUMM, the first unified codebase for comprehensive evaluation, analysis, and post-training across diverse UMM backbones, tasks, and datasets. TorchUMM supports a broad spectrum of models covering a wide range of scales and design paradigms. Our benchmark encompasses three core task dimensions: multimodal understanding, generation, and editing, and integrates both established and novel datasets to evaluate perception, reasoning, compositionality, and instruction-following abilities. By providing a unified interface and standardized evaluation protocols, TorchUMM enables fair and reproducible comparisons across heterogeneous models and fosters deeper insights into their strengths and limitations, facilitating the development of more capable unified multimodal systems. Code is available at: https://github.com/AIFrontierLab/TorchUMM.

2 Citations
0 Influential
45.108942885245 Altmetric
227.5 Score
Original PDF
91

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!