UniCorn: 자기 생성 감독을 통한 자기 개선 통합 다중 모달 모델 개발
UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision
통합 다중 모달 모델(UMM)은 교차 모달 이해에서 놀라운 성공을 거두었지만, 이러한 내부 지식을 활용하여 고품질의 출력을 생성하는 능력에는 여전히 큰 격차가 존재합니다. 우리는 이러한 불일치를 '전도성 실어증(Conduction Aphasia)'이라고 정의하며, 이는 모델이 다중 모달 입력을 정확하게 해석하지만, 이러한 이해를 충실하고 제어 가능한 결과물로 변환하는 데 어려움을 겪는 현상입니다. 이를 해결하기 위해, 우리는 외부 데이터나 교사 감독 없이도 자기 개선이 가능한 간단하면서도 우아한 프레임워크인 UniCorn을 제안합니다. UniCorn은 단일 UMM을 제안자(Proposer), 해결자(Solver), 평가자(Judge)라는 세 가지 협력적인 역할로 나누어, 자기 학습을 통해 고품질의 상호 작용을 생성하고, 인지 패턴 재구성을 활용하여 잠재적인 이해를 명시적인 생성 신호로 변환합니다. 다중 모달 일관성 복원을 검증하기 위해, 텍스트에서 이미지로, 다시 텍스트로 재구성하는 순환 일관성 벤치마크인 UniCycle을 도입했습니다. 광범위한 실험 결과, UniCorn은 6가지 일반적인 이미지 생성 벤치마크에서 기본 모델보다 종합적이고 상당한 성능 향상을 보였습니다. 특히, UniCorn은 TIIF(73.8), DPG(86.8), CompBench(88.5), UniCycle에서 최첨단(SOTA) 성능을 달성했으며, WISE에서 +5.0, OneIG에서 +6.5의 상당한 성능 향상을 보였습니다. 이러한 결과는 우리의 방법이 T2I 생성을 크게 향상시키면서도 강력한 이해 능력을 유지하며, 통합 다중 모달 지능을 위한 완전한 자기 지도 학습 기반 개선의 확장 가능성을 보여줍니다.
While Unified Multimodal Models (UMMs) have achieved remarkable success in cross-modal comprehension, a significant gap persists in their ability to leverage such internal knowledge for high-quality generation. We formalize this discrepancy as Conduction Aphasia, a phenomenon where models accurately interpret multimodal inputs but struggle to translate that understanding into faithful and controllable synthesis. To address this, we propose UniCorn, a simple yet elegant self-improvement framework that eliminates the need for external data or teacher supervision. By partitioning a single UMM into three collaborative roles: Proposer, Solver, and Judge, UniCorn generates high-quality interactions via self-play and employs cognitive pattern reconstruction to distill latent understanding into explicit generative signals. To validate the restoration of multimodal coherence, we introduce UniCycle, a cycle-consistency benchmark based on a Text to Image to Text reconstruction loop. Extensive experiments demonstrate that UniCorn achieves comprehensive and substantial improvements over the base model across six general image generation benchmarks. Notably, it achieves SOTA performance on TIIF(73.8), DPG(86.8), CompBench(88.5), and UniCycle while further delivering substantial gains of +5.0 on WISE and +6.5 on OneIG. These results highlight that our method significantly enhances T2I generation while maintaining robust comprehension, demonstrating the scalability of fully self-supervised refinement for unified multimodal intelligence.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.