통합 사고 엔진: 이미지 생성 시스템을 위한 범용 추론 모듈 코어
Unified Thinker: A General Reasoning Modular Core for Image Generation
고품질 이미지 생성 분야에서 상당한 발전이 있었지만, 생성 모델은 여전히 논리적인 추론을 요구하는 지시 사항을 처리하는 데 어려움을 겪으며, 이는 지속적인 추론-실행 간의 격차를 드러냅니다. 반면, 비공개 시스템(예: Nano Banana)은 강력한 추론 기반 이미지 생성을 보여주며, 이는 현재 공개 소스 모델과의 상당한 격차를 강조합니다. 우리는 이러한 격차를 해소하기 위해서는 더 나은 시각적 생성기뿐만 아니라 실행 가능한 추론이 필요하다고 주장합니다. 즉, 고수준의 의도를 실행 가능하고 검증 가능한 계획으로 분해하여 생성 프로세스를 직접 제어해야 합니다. 이러한 목표를 달성하기 위해, 우리는 다양한 생성기 및 워크플로우에 통합될 수 있는 범용 계획 코어로 설계된, 작업에 독립적인 추론 아키텍처인 "통합 사고 엔진(Unified Thinker)"을 제안합니다. 통합 사고 엔진은 전용 추론 모듈(Thinker)과 이미지 생성기(Generator)를 분리하여, 전체 생성 모델을 재학습하지 않고도 추론 모듈을 모듈 방식으로 업그레이드할 수 있도록 합니다. 또한, 우리는 두 단계의 학습 패러다임을 도입합니다. 먼저 추론 모듈을 위한 구조화된 계획 인터페이스를 구축한 다음, 강화 학습을 적용하여 픽셀 수준의 피드백을 통해 정책을 학습시켜, 시각적 정확성을 최적화하는 계획을 장려합니다. 텍스트-이미지 생성 및 이미지 편집에 대한 광범위한 실험 결과, 통합 사고 엔진이 이미지 추론 및 생성 품질을 크게 향상시키는 것을 보여줍니다.
Despite impressive progress in high-fidelity image synthesis, generative models still struggle with logic-intensive instruction following, exposing a persistent reasoning--execution gap. Meanwhile, closed-source systems (e.g., Nano Banana) have demonstrated strong reasoning-driven image generation, highlighting a substantial gap to current open-source models. We argue that closing this gap requires not merely better visual generators, but executable reasoning: decomposing high-level intents into grounded, verifiable plans that directly steer the generative process. To this end, we propose Unified Thinker, a task-agnostic reasoning architecture for general image generation, designed as a unified planning core that can plug into diverse generators and workflows. Unified Thinker decouples a dedicated Thinker from the image Generator, enabling modular upgrades of reasoning without retraining the entire generative model. We further introduce a two-stage training paradigm: we first build a structured planning interface for the Thinker, then apply reinforcement learning to ground its policy in pixel-level feedback, encouraging plans that optimize visual correctness over textual plausibility. Extensive experiments on text-to-image generation and image editing show that Unified Thinker substantially improves image reasoning and generation quality.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.