DDA-Thinker: 추론 기반 이미지 편집을 위한 분리된 이중 원자 강화 학습
DDA-Thinker: Decoupled Dual-Atomic Reinforcement Learning for Reasoning-Driven Image Editing
최근의 이미지 편집 모델들은 뛰어난 시각적 충실도를 달성했지만, 복잡한 추론이 필요한 작업에서는 종종 어려움을 겪습니다. 이미지 편집을 위한 추론 기반 계획 능력을 조사하고 향상시키기 위해, 우리는 계획 모듈(Thinker)을 고정된 생성 모델(Editor)에 대해 독립적으로 최적화하는 Thinker 중심 프레임워크인 DDA-Thinker를 제안합니다. 이러한 분리된 Thinker 중심 패러다임은 계획 모듈에 대한 제어된 분석을 용이하게 하며, 고정된 Editor 환경에서 해당 모듈의 기여도를 평가하는 데 도움을 줍니다. 이 Thinker를 효과적으로 안내하기 위해, 우리는 이중 원자 강화 학습 프레임워크를 도입합니다. 이 프레임워크는 피드백을 두 가지 고유한 원자 보상으로 분해하며, 이는 검증 가능한 체크리스트를 통해 구현됩니다. 첫 번째는 Thinker의 실행 가능한 계획의 품질을 직접적으로 평가하는 인지적 원자 보상이며, 이는 Thinker의 추론의 실행 가능한 결과 역할을 합니다. 두 번째는 최종 이미지 품질을 평가하는 시각적 원자 보상입니다. 체크리스트의 품질을 향상시키기 위해, 우리의 체크리스트 생성은 원본 이미지와 사용자 지침뿐만 아니라 이상적인 편집 후 장면의 합리적인 참조 설명을 기반으로 합니다. 이러한 학습을 지원하기 위해, 우리는 먼저 다양한 추론 중심 데이터 세트를 합성하고, 그 다음에는 어려움에 대한 인식을 바탕으로 강화 학습을 위한 효과적인 학습 과정을 구성하는 난이도 기반의 개선 단계를 적용하는 두 단계의 데이터 큐레이션 파이프라인을 추가로 개발했습니다. RISE-Bench 및 KRIS-Bench를 포함한 추론 기반 이미지 편집 벤치마크에 대한 광범위한 실험 결과, 우리의 접근 방식이 전체 성능을 크게 향상시키는 것으로 나타났습니다. 우리의 방법은 커뮤니티 모델이 강력한 독점 모델과 경쟁력 있는 결과를 달성할 수 있도록 하며, 이는 고정된 Editor 환경에서 Thinker 중심 최적화의 실질적인 잠재력을 강조합니다.
Recent image editing models have achieved strong visual fidelity but often struggle with tasks requiring complex reasoning. To investigate and enhance the reasoning-grounded planning for image editing, we propose DDA-Thinker, a Thinker-centric framework designed for the independent optimization of a planning module (Thinker) over a fixed generative model (Editor). This decoupled Thinker-centric paradigm facilitates a controlled analysis of the planning module and makes its contribution under a fixed Editor easier to assess. To effectively guide this Thinker, we introduce a dual-atomic reinforcement learning framework. This framework decomposes feedback into two distinct atomic rewards implemented through verifiable checklists: a cognitive-atomic reward to directly assess the quality of the Thinker's executable plan, which serves as the actionable outcome of the Thinker's reasoning, and a visual-atomic reward to assess the final image quality. To improve checklist quality, our checklist synthesis is grounded not only in the source image and user instruction but also in a rational reference description of the ideal post-edit scene. To support this training, we further develop a two-stage data curation pipeline that first synthesizes a diverse and reasoning-focused dataset, then applies difficulty-aware refinement to curate an effective training curriculum for reinforcement learning. Extensive experiments on reasoning-driven image editing benchmarks, including RISE-Bench and KRIS-Bench, demonstrate that our approach substantially improves overall performance. Our method enables a community model to achieve results competitive with strong proprietary models, highlighting the practical potential of Thinker-centric optimization under a fixed-editor setting.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.