텍스트-이미지 생성 모델을 위한 능동형 보정 시스템
Agentic Retoucher for Text-To-Image Generation
SDXL 및 FLUX와 같은 텍스트-이미지(T2I) 확산 모델은 뛰어난 사실감을 달성했지만, 팔, 얼굴, 텍스트 등에서 작은 왜곡이 여전히 널리 나타납니다. 기존의 개선 방법은 비용이 많이 드는 반복적인 재생 과정을 수행하거나, 공간적 정확도가 낮은 시각-언어 모델(VLM)에 의존하여 의미적 오류와 신뢰할 수 없는 지역 수정으로 이어집니다. 이러한 격차를 해소하기 위해, 우리는 인간과 유사한 인지-추론-행동 루프로 사후 생성 수정 문제를 재구성하는 계층적 의사 결정 프레임워크인 Agentic Retoucher를 제안합니다. 구체적으로, 우리는 (1) 텍스트-이미지 일관성 힌트를 기반으로 미세한 왜곡 위치를 파악하는 문맥적 중요도를 학습하는 인지 에이전트, (2) 점진적인 선호도 정렬을 통해 인간과 일관된 추론적 진단을 수행하는 추론 에이전트, (3) 사용자 선호도에 따라 로컬 인페인팅을 적응적으로 계획하는 액션 에이전트를 설계했습니다. 이러한 설계는 지각적 증거, 언어적 추론, 제어 가능한 수정을 통합하여 단일하고 자기 수정적인 의사 결정 프로세스를 구현합니다. 미세한 수준의 감독과 정량적 평가를 가능하게 하기 위해, 우리는 6가지 T2I 이미지와 12가지 범주에 걸쳐 27,000개의 주석이 달린 오류 영역을 포함하는 데이터셋인 GenBlemish-27K를 추가로 구축했습니다. 광범위한 실험 결과, Agentic Retoucher는 지각적 품질, 왜곡 위치 파악 및 인간 선호도 정렬 측면에서 최첨단 방법보다 일관되게 우수한 성능을 보이며, 자기 수정적이고 지각적으로 신뢰할 수 있는 T2I 생성을 위한 새로운 패러다임을 제시합니다.
Text-to-image (T2I) diffusion models such as SDXL and FLUX have achieved impressive photorealism, yet small-scale distortions remain pervasive in limbs, face, text and so on. Existing refinement approaches either perform costly iterative re-generation or rely on vision-language models (VLMs) with weak spatial grounding, leading to semantic drift and unreliable local edits. To close this gap, we propose Agentic Retoucher, a hierarchical decision-driven framework that reformulates post-generation correction as a human-like perception-reasoning-action loop. Specifically, we design (1) a perception agent that learns contextual saliency for fine-grained distortion localization under text-image consistency cues, (2) a reasoning agent that performs human-aligned inferential diagnosis via progressive preference alignment, and (3) an action agent that adaptively plans localized inpainting guided by user preference. This design integrates perceptual evidence, linguistic reasoning, and controllable correction into a unified, self-corrective decision process. To enable fine-grained supervision and quantitative evaluation, we further construct GenBlemish-27K, a dataset of 6K T2I images with 27K annotated artifact regions across 12 categories. Extensive experiments demonstrate that Agentic Retoucher consistently outperforms state-of-the-art methods in perceptual quality, distortion localization and human preference alignment, establishing a new paradigm for self-corrective and perceptually reliable T2I generation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.