이해력 기반 감독을 활용한 통합 다중 모드 모델에서의 시각적 생성 제어
Steering Visual Generation in Unified Multimodal Models with Understanding Supervision
통합 다중 모드 모델은 이해와 생성 간의 간극을 해소하는 것을 목표로 합니다. 그러나 최첨단 모델은 경쟁력 있는 성능을 달성하기 위해 이해 및 생성 구성 요소를 대부분 분리된 방식으로 채택합니다. 이러한 설계는 개별 작업에서는 효과적이지만, 상호 강화에 필요한 연결을 약화시켜 잠재적인 시너지 효과를 경험적으로 불확실하게 만듭니다. 우리는 이해력 중심의 추가 학습(Understanding-Oriented Post-Training, UNO)이라는 가벼운 프레임워크를 도입하여 이러한 시너지 효과를 명시적으로 복원하고자 합니다. UNO는 이해력을 단순한 별도 작업으로 취급하는 것뿐만 아니라, 생성 표현을 제어하기 위한 직접적인 감독 신호로 활용합니다. 의미 추상화(캡셔닝) 및 구조적 세부 사항(시각적 회귀)을 인코딩하는 목표를 통합함으로써, 이해에서 생성으로 효과적인 기울기 흐름을 가능하게 합니다. 이미지 생성 및 편집에 대한 광범위한 실험 결과, 이해력이 생성에 효과적인 촉매제 역할을 할 수 있음을 보여줍니다.
Unified multimodal models are envisioned to bridge the gap between understanding and generation. Yet, to achieve competitive performance, state-of-the-art models adopt largely decoupled understanding and generation components. This design, while effective for individual tasks, weakens the connection required for mutual enhancement, leaving the potential synergy empirically uncertain. We propose to explicitly restore this synergy by introducing Understanding-Oriented Post-Training (UNO), a lightweight framework that treats understanding not only as a distinct task, but also a direct supervisory signal to steer generative representations. By incorporating objectives that encode semantic abstraction (captioning) and structural details (visual regression), we enable effective gradient flow from understanding to generation. Extensive experiments on image generation and editing demonstrate that understanding can serve as an effective catalyst for generation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.