2604.24625v1 Apr 27, 2026 cs.CV

Meta-CoT: 이미지 편집에서의 세분화 및 일반화 능력 향상

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

Yu Xu
Yu Xu
Citations: 14
h-index: 2
Yiji Cheng
Yiji Cheng
Citations: 188
h-index: 6
Tiankai Hang
Tiankai Hang
Citations: 1,053
h-index: 9
Runze He
Runze He
Citations: 10
h-index: 2
Zijin Yin
Zijin Yin
Citations: 13
h-index: 2
Qinglin Lu
Qinglin Lu
Citations: 274
h-index: 6
Chunyu Wang
Chunyu Wang
Citations: 240
h-index: 7
Wenxun Dai
Wenxun Dai
Citations: 35
h-index: 3
Yunlong Lin
Yunlong Lin
Citations: 100
h-index: 5
Shiyi Zhang
Shiyi Zhang
Citations: 246
h-index: 5
Yansong Tang
Yansong Tang
Citations: 419
h-index: 7

통합된 다중 모드 이해/생성 모델은 체인-오브-토(Chain-of-Thought, CoT) 과정에 미세한 이해를 통합함으로써 향상된 이미지 편집 성능을 보여주었습니다. 그러나 여전히 중요한 질문은 제대로 탐구되지 않았습니다: 어떤 형태의 CoT와 학습 전략이 이해의 세분화 및 일반화 능력을 동시에 향상시킬 수 있는가? 이를 해결하기 위해, 우리는 Meta-CoT라는 패러다임을 제안합니다. Meta-CoT는 단일 이미지 편집 작업에 대해 두 가지 핵심적인 특성을 가진 두 단계의 분해를 수행합니다: (1) 분해 가능성. 우리는 모든 편집 의도를 (작업, 대상, 요구되는 이해 능력)이라는 3개의 요소로 표현할 수 있다는 것을 관찰했습니다. 이러한 점에 착안하여, Meta-CoT는 편집 작업과 대상을 모두 분해하고, 작업별 CoT를 생성하며, 모든 대상에 대한 편집 작업을 수행합니다. 이러한 분해는 모델의 편집 작업에 대한 이해의 세분화를 향상시키고, 학습 과정에서 3가지 요소 각각을 학습하도록 유도하여 편집 능력을 크게 향상시킵니다. (2) 일반화 가능성. 두 번째 분해 단계에서, 우리는 편집 작업을 다섯 가지 기본적인 메타 작업으로 더욱 세분화합니다. 우리는 이러한 다섯 가지 메타 작업과 함께 3가지 요소에 대한 학습이, 다양한 새로운 편집 작업에 대한 강력한 일반화 능력을 달성하는 데 충분하다는 것을 발견했습니다. 또한, 모델의 편집 동작과 CoT 추론을 더욱 일치시키기 위해, CoT-Editing Consistency Reward를 도입하여, 편집 과정에서 CoT 정보가 보다 정확하고 효과적으로 활용되도록 장려합니다. 실험 결과, 우리의 방법은 21가지 편집 작업에서 전반적으로 15.8%의 성능 향상을 달성했으며, 적은 수의 메타 작업으로 학습했을 때에도 새로운 편집 작업에 효과적으로 일반화되는 것을 확인했습니다. 우리의 코드, 벤치마크 및 모델은 https://shiyi-zh0408.github.io/projectpages/Meta-CoT/ 에서 제공됩니다.

Original Abstract

Unified multi-modal understanding/generative models have shown improved image editing performance by incorporating fine-grained understanding into their Chain-of-Thought (CoT) process. However, a critical question remains underexplored: what forms of CoT and training strategy can jointly enhance both the understanding granularity and generalization? To address this, we propose Meta-CoT, a paradigm that performs a two-level decomposition of any single-image editing operation with two key properties: (1) Decomposability. We observe that any editing intention can be represented as a triplet - (task, target, required understanding ability). Inspired by this, Meta-CoT decomposes both the editing task and the target, generating task-specific CoT and traversing editing operations on all targets. This decomposition enhances the model's understanding granularity of editing operations and guides it to learn each element of the triplet during training, substantially improving the editing capability. (2) Generalizability. In the second decomposition level, we further break down editing tasks into five fundamental meta-tasks. We find that training on these five meta-tasks, together with the other two elements of the triplet, is sufficient to achieve strong generalization across diverse, unseen editing tasks. To further align the model's editing behavior with its CoT reasoning, we introduce the CoT-Editing Consistency Reward, which encourages more accurate and effective utilization of CoT information during editing. Experiments demonstrate that our method achieves an overall 15.8% improvement across 21 editing tasks, and generalizes effectively to unseen editing tasks when trained on only a small set of meta-tasks. Our code, benchmark, and model are released at https://shiyi-zh0408.github.io/projectpages/Meta-CoT/

1 Citations
0 Influential
4.5 Altmetric
23.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!