의미론적으로 기반한 감독을 통한 통합 다중 모드 모델의 정렬 향상
Enhancing Alignment for Unified Multimodal Models via Semantically-Grounded Supervision
통합 다중 모드 모델(Unified Multimodal Models, UMMs)은 다중 모드 이해 및 생성을 단일 모델 프레임워크 내에서 통합하는 유망한 패러다임으로 부상했습니다. 그러나 현재 생성 훈련 방식은 내재적인 한계를 가지고 있습니다. 본 연구에서는 UMMs의 세분화 불일치 및 감독 중복 문제를 해결하기 위한 미세 조정 프레임워크인 Semantically-Grounded Supervision (SeGroS)을 제안합니다. 핵심적으로, 우리는 두 가지 상호 보완적인 감독 신호를 구축하기 위한 새로운 시각적 정렬 맵을 제안합니다. 첫째, 텍스트 프롬프트의 희소성을 보완하기 위한 의미론적 시각적 힌트를 제안합니다. 둘째, 마스킹 기반 UMM의 감독을 명시적으로 강화하기 위해, 재구성 손실을 핵심 텍스트와 정렬된 영역으로 제한하는 의미론적으로 기반한 손상된 입력을 생성합니다. GenEval, DPGBench 및 CompBench에 대한 광범위한 실험 결과는 SeGroS가 다양한 UMM 아키텍처에서 생성 품질 및 다중 모드 정렬을 크게 향상시킨다는 것을 보여줍니다.
Unified Multimodal Models (UMMs) have emerged as a promising paradigm that integrates multimodal understanding and generation within a unified modeling framework. However, current generative training paradigms suffer from inherent limitations. We present Semantically-Grounded Supervision (SeGroS), a fine-tuning framework designed to resolve the granularity mismatch and supervisory redundancy in UMMs. At its core, we propose a novel visual grounding map to construct two complementary supervision signals. First, we formulate semantic Visual Hints to compensate for the sparsity of text prompts. Second, we generate a semantically-grounded Corrupted Input to explicitly enhance the supervision of masking-based UMMs by restricting the reconstruction loss to core text-aligned regions. Extensive evaluations on GenEval, DPGBench, and CompBench demonstrate that SeGroS significantly improves generation fidelity and cross-modal alignment across various UMM architectures.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.