2602.22624v1 Feb 26, 2026 cs.CV

계획, 추론, 그리고 생성을 활용한 지시 기반 이미지 편집

Instruction-based Image Editing with Planning, Reasoning, and Generation

Liya Ji
Liya Ji
Citations: 18
h-index: 3
Chenyang Qi
Chenyang Qi
Citations: 1,124
h-index: 12
Qifeng Chen
Qifeng Chen
Citations: 9
h-index: 2

지시를 통해 이미지를 편집하는 것은 상호 작용 콘텐츠를 생성하는 자연스러운 방법이지만, 장면 이해 및 생성에 대한 높은 요구 사항으로 인해 큰 과제입니다. 기존 연구에서는 이 작업을 위해 대규모 언어 모델, 객체 분할 모델, 편집 모델을 연결하여 사용합니다. 그러나 기존 모델은 단일 모달리티만 제공하여 편집 품질을 제한합니다. 본 연구에서는 새로운 다중 모달리티 모델을 통해 장면 이해와 생성을 연결하여, 지시 기반 이미지 편집 모델이 더 복잡한 경우에도 지능적인 능력을 발휘할 수 있도록 하는 것을 목표로 합니다. 이를 위해, 지시 기반 편집 작업을 다중 모달리티 체인 오브 씽크(Chain-of-Thought, CoT) 프롬프트 체인으로 분리하여, 즉 CoT 계획, 편집 영역 추론, 그리고 편집을 수행합니다. CoT 계획 단계에서는 대규모 언어 모델이 제공된 지시와 편집 네트워크의 능력을 고려하여 적절한 하위 프롬프트를 추론합니다. 편집 영역 추론 단계에서는 다중 모달리티 대규모 언어 모델을 사용하여 지시 기반 편집 영역 생성 네트워크를 학습합니다. 마지막으로, 텍스트-이미지 확산 모델을 기반으로 한 힌트 기반 지시 기반 편집 네트워크를 제안하여, 생성 과정에서 힌트를 활용할 수 있도록 합니다. 광범위한 실험 결과, 제안하는 방법이 복잡한 실제 이미지에 대해 경쟁력 있는 편집 능력을 보여줍니다.

Original Abstract

Editing images via instruction provides a natural way to generate interactive content, but it is a big challenge due to the higher requirement of scene understanding and generation. Prior work utilizes a chain of large language models, object segmentation models, and editing models for this task. However, the understanding models provide only a single modality ability, restricting the editing quality. We aim to bridge understanding and generation via a new multi-modality model that provides the intelligent abilities to instruction-based image editing models for more complex cases. To achieve this goal, we individually separate the instruction editing task with the multi-modality chain of thought prompts, i.e., Chain-of-Thought (CoT) planning, editing region reasoning, and editing. For Chain-of-Thought planning, the large language model could reason the appropriate sub-prompts considering the instruction provided and the ability of the editing network. For editing region reasoning, we train an instruction-based editing region generation network with a multi-modal large language model. Finally, a hint-guided instruction-based editing network is proposed for editing image generations based on the sizeable text-to-image diffusion model to accept the hints for generation. Extensive experiments demonstrate that our method has competitive editing abilities on complex real-world images.

3 Citations
0 Influential
6 Altmetric
33.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!