2602.02437v4 Feb 02, 2026 cs.CV

UniReason 1.0: 세계 지식 연계를 통한 이미지 생성 및 편집을 위한 통합 추론 프레임워크

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Zhongyu Wei
Zhongyu Wei
Citations: 292
h-index: 9
Dianyi Wang
Dianyi Wang
Citations: 24
h-index: 3
F. Han
F. Han
Citations: 73
h-index: 3
Chaofan Ma
Chaofan Ma
Citations: 6
h-index: 1
Wei Song
Wei Song
Citations: 74
h-index: 4
Yibin Wang
Yibin Wang
Citations: 354
h-index: 6
Zhixiong Zhang
Zhixiong Zhang
Citations: 145
h-index: 4
Tianhang Wang
Tianhang Wang
Citations: 2
h-index: 1
Siyuan Wang
Siyuan Wang
Citations: 1,236
h-index: 20
Size Wu
Size Wu
Citations: 632
h-index: 10
Jiaqi Wang
Jiaqi Wang
Citations: 14
h-index: 2

통합 다중 모드 모델은 종종 심층적인 추론을 요구하는 복잡한 생성 작업에 어려움을 겪으며, 일반적으로 텍스트-이미지 생성과 이미지 편집을 독립적인 기능으로 취급하는 경향이 있습니다. 이러한 문제를 해결하기 위해, 우리는 두 가지 상호 보완적인 추론 패러다임을 통해 이 두 가지 작업을 조화시키는 통합 프레임워크인 UniReason을 제안합니다. 우리는 암묵적인 지식을 추론하기 위해 세계 지식 기반의 텍스트 추론을 생성 과정에 통합하고, 시각적인 오류를 수정하기 위해 편집 기능을 활용하여 정밀한 시각적 개선을 수행합니다. 이 접근 방식은 생성과 편집을 공유된 아키텍처 내에서 통합하여 인간의 계획 후 개선이라는 인지 과정을 반영합니다. 본 프레임워크를 뒷받침하기 위해, 우리는 텍스트 추론을 위한 5가지 주요 지식 영역(예: 문화적 상식, 물리학 등)을 포괄하는 대규모의 추론 중심 데이터셋(~300만 샘플)을 체계적으로 구축하고, 시각적 개선을 위한 에이전트 생성 코퍼스를 함께 제공합니다. 광범위한 실험 결과, UniReason은 WISE, KrisBench 및 UniREditBench와 같은 추론 집약적인 벤치마크에서 뛰어난 성능을 달성하며, 우수한 일반적인 생성 능력을 유지하는 것으로 나타났습니다.

Original Abstract

Unified multimodal models often struggle with complex synthesis tasks that demand deep reasoning, and typically treat text-to-image generation and image editing as isolated capabilities rather than interconnected reasoning steps. To address this, we propose UniReason, a unified framework that harmonizes these two tasks through two complementary reasoning paradigms. We incorporate world knowledge-enhanced textual reasoning into generation to infer implicit knowledge, and leverage editing capabilities for fine-grained editing-like visual refinement to further correct visual errors via self-reflection. This approach unifies generation and editing within a shared architecture, mirroring the human cognitive process of planning followed by refinement. We support this framework by systematically constructing a large-scale reasoning-centric dataset (~300k samples) covering five major knowledge domains (e.g., cultural commonsense, physics, etc.) for textual reasoning, alongside an agent-generated corpus for visual refinement. Extensive experiments demonstrate that UniReason achieves advanced performance on reasoning-intensive benchmarks such as WISE, KrisBench and UniREditBench, while maintaining superior general synthesis capabilities.

1 Citations
0 Influential
10 Altmetric
51.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!