2601.03127v1 Jan 06, 2026 cs.CV

통합 사고 엔진: 이미지 생성 시스템을 위한 범용 추론 모듈 코어

Unified Thinker: A General Reasoning Modular Core for Image Generation

Zhou Zhao
Zhou Zhao
Citations: 188
h-index: 5
Yinchao Ma
Yinchao Ma
Citations: 12
h-index: 2
Qiang Zhou
Qiang Zhou
Citations: 88
h-index: 3
Hanqing Yang
Hanqing Yang
Citations: 10
h-index: 2
Jun Song
Jun Song
Citations: 29
h-index: 3
Bo Zheng
Bo Zheng
Citations: 23
h-index: 3
Sashuai Zhou
Sashuai Zhou
Citations: 49
h-index: 4
Yue Cao
Yue Cao
Citations: 6
h-index: 2
Junpeng Ma
Junpeng Ma
Citations: 8
h-index: 2
Tiezheng Ge
Tiezheng Ge
Citations: 452
h-index: 9
Cheng Yu
Cheng Yu
Citations: 18
h-index: 3
Jijin Hu
Jijin Hu
Citations: 13
h-index: 3

고품질 이미지 생성 분야에서 상당한 발전이 있었지만, 생성 모델은 여전히 논리적인 추론을 요구하는 지시 사항을 처리하는 데 어려움을 겪으며, 이는 지속적인 추론-실행 간의 격차를 드러냅니다. 반면, 비공개 시스템(예: Nano Banana)은 강력한 추론 기반 이미지 생성을 보여주며, 이는 현재 공개 소스 모델과의 상당한 격차를 강조합니다. 우리는 이러한 격차를 해소하기 위해서는 더 나은 시각적 생성기뿐만 아니라 실행 가능한 추론이 필요하다고 주장합니다. 즉, 고수준의 의도를 실행 가능하고 검증 가능한 계획으로 분해하여 생성 프로세스를 직접 제어해야 합니다. 이러한 목표를 달성하기 위해, 우리는 다양한 생성기 및 워크플로우에 통합될 수 있는 범용 계획 코어로 설계된, 작업에 독립적인 추론 아키텍처인 "통합 사고 엔진(Unified Thinker)"을 제안합니다. 통합 사고 엔진은 전용 추론 모듈(Thinker)과 이미지 생성기(Generator)를 분리하여, 전체 생성 모델을 재학습하지 않고도 추론 모듈을 모듈 방식으로 업그레이드할 수 있도록 합니다. 또한, 우리는 두 단계의 학습 패러다임을 도입합니다. 먼저 추론 모듈을 위한 구조화된 계획 인터페이스를 구축한 다음, 강화 학습을 적용하여 픽셀 수준의 피드백을 통해 정책을 학습시켜, 시각적 정확성을 최적화하는 계획을 장려합니다. 텍스트-이미지 생성 및 이미지 편집에 대한 광범위한 실험 결과, 통합 사고 엔진이 이미지 추론 및 생성 품질을 크게 향상시키는 것을 보여줍니다.

Original Abstract

Despite impressive progress in high-fidelity image synthesis, generative models still struggle with logic-intensive instruction following, exposing a persistent reasoning--execution gap. Meanwhile, closed-source systems (e.g., Nano Banana) have demonstrated strong reasoning-driven image generation, highlighting a substantial gap to current open-source models. We argue that closing this gap requires not merely better visual generators, but executable reasoning: decomposing high-level intents into grounded, verifiable plans that directly steer the generative process. To this end, we propose Unified Thinker, a task-agnostic reasoning architecture for general image generation, designed as a unified planning core that can plug into diverse generators and workflows. Unified Thinker decouples a dedicated Thinker from the image Generator, enabling modular upgrades of reasoning without retraining the entire generative model. We further introduce a two-stage training paradigm: we first build a structured planning interface for the Thinker, then apply reinforcement learning to ground its policy in pixel-level feedback, encouraging plans that optimize visual correctness over textual plausibility. Extensive experiments on text-to-image generation and image editing show that Unified Thinker substantially improves image reasoning and generation quality.

3 Citations
0 Influential
4.5 Altmetric
25.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!