MCIE: 멀티모달 LLM 기반의 공간 정보 기반 복잡한 지시사항 이미지 편집
MCIE: Multimodal LLM-Driven Complex Instruction Image Editing with Spatial Guidance
최근 지시사항 기반 이미지 편집 분야에서 괄목할 만한 발전이 이루어졌습니다. 하지만 기존 방법들은 비교적 단순한 편집 작업에 국한되어 있으며, 이는 복잡하고 조합적인 지시사항을 필요로 하는 실제 응용 분야에 제약을 가져옵니다. 본 연구에서는 이러한 한계점을 아키텍처 설계, 데이터, 그리고 평가 프로토콜의 관점에서 해결하고자 합니다. 특히, 현재 모델에서 두 가지 주요 과제, 즉 지시사항 준수 부족과 배경 일관성 문제를 확인했습니다. 이에, 우리는 두 가지 핵심 모듈인 공간 인지 크로스 어텐션 모듈과 배경 일관성 크로스 어텐션 모듈을 통합한 멀티모달 대규모 언어 모델 기반의 복잡한 지시사항 이미지 편집 방법인 MCIE-E1을 제안합니다. 전자는 공간 정보를 활용하여 시뮬레이션 과정에서 의미론적 지시사항을 공간 영역과 명시적으로 연결함으로써 지시사항 준수 능력을 향상시키고, 후자는 편집되지 않은 영역의 특징을 유지하여 배경 일관성을 보장합니다. 효과적인 학습을 위해, 우리는 복잡한 지시사항 기반 이미지 편집 데이터셋의 부족 문제를 해결하기 위한 전용 데이터 파이프라인을 구축했습니다. 이 파이프라인은 강력한 MLLM을 이용한 세밀한 자동 필터링과 엄격한 인간 검증을 결합합니다. 마지막으로, 복잡한 지시사항 기반 이미지 편집을 종합적으로 평가하기 위해, 새로운 벤치마크인 CIE-Bench와 두 가지 새로운 평가 지표를 도입했습니다. CIE-Bench에 대한 실험 결과는 MCIE-E1이 정량적 및 정성적 평가 모두에서 기존 최고 성능 모델보다 일관되게 우수한 성능을 보이며, 특히 지시사항 준수율이 23.96% 향상되었음을 보여줍니다.
Recent advances in instruction-based image editing have shown remarkable progress. However, existing methods remain limited to relatively simple editing operations, hindering real-world applications that require complex and compositional instructions. In this work, we address these limitations from the perspectives of architectural design, data, and evaluation protocols. Specifically, we identify two key challenges in current models: insufficient instruction compliance and background inconsistency. To this end, we propose MCIE-E1, a Multimodal Large Language Model-Driven Complex Instruction Image Editing method that integrates two key modules: a spatial-aware cross-attention module and a background-consistent cross-attention module. The former enhances instruction-following capability by explicitly aligning semantic instructions with spatial regions through spatial guidance during the denoising process, while the latter preserves features in unedited regions to maintain background consistency. To enable effective training, we construct a dedicated data pipeline to mitigate the scarcity of complex instruction-based image editing datasets, combining fine-grained automatic filtering via a powerful MLLM with rigorous human validation. Finally, to comprehensively evaluate complex instruction-based image editing, we introduce CIE-Bench, a new benchmark with two new evaluation metrics. Experimental results on CIE-Bench demonstrate that MCIE-E1 consistently outperforms previous state-of-the-art methods in both quantitative and qualitative assessments, achieving a 23.96% improvement in instruction compliance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.