ImageEdit-R1: 강화 학습을 통한 다중 에이전트 이미지 편집 성능 향상
ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning
최근 상용 멀티모달 모델의 빠른 발전으로 인해, 이미지 편집은 일상생활 전반에 걸쳐 광범위하게 활용될 수 있어 큰 주목을 받고 있습니다. 하지만 기존의 이미지 편집 시스템, 특히 폐쇄형 또는 독점 모델은 복잡하고 간접적이거나 다단계의 사용자 지시를 처리하는 데 어려움을 겪는 경우가 많습니다. 이러한 한계는 시스템이 인간의 의도에 부합하는 미묘하고 상황에 맞는 편집을 수행하는 능력을 저해합니다. 본 연구에서는 강화 학습을 활용하여 전문화된 사전 훈련된 시각-언어 및 생성 에이전트 간의 고수준 의사 결정을 조정하는 다중 에이전트 프레임워크인 ImageEdit-R1을 제안합니다. 각 에이전트는 사용자 의도 파악, 관심 영역 식별, 적절한 편집 작업 선택, 시각적 콘텐츠 합성 등 고유한 기능을 담당하며, 강화 학습은 에이전트 간의 협력을 통제하여 일관성 있고 목표 지향적인 동작을 보장합니다. 기존의 단일 모델 기반 또는 수동으로 설계된 파이프라인에 의존하는 방식과는 달리, 저희 방법은 이미지 편집을 순차적 의사 결정 문제로 간주하여 동적이고 상황에 맞는 편집 전략을 가능하게 합니다. 실험 결과는 ImageEdit-R1이 다양한 이미지 편집 데이터 세트에서 개별 폐쇄형 확산 모델 및 다른 다중 에이전트 프레임워크 기준 모델보다 일관되게 더 우수한 성능을 발휘함을 보여줍니다.
With the rapid advancement of commercial multi-modal models, image editing has garnered significant attention due to its widespread applicability in daily life. Despite impressive progress, existing image editing systems, particularly closed-source or proprietary models, often struggle with complex, indirect, or multi-step user instructions. These limitations hinder their ability to perform nuanced, context-aware edits that align with human intent. In this work, we propose ImageEdit-R1, a multi-agent framework for intelligent image editing that leverages reinforcement learning to coordinate high-level decision-making across a set of specialized, pretrained vision-language and generative agents. Each agent is responsible for distinct capabilities--such as understanding user intent, identifying regions of interest, selecting appropriate editing actions, and synthesizing visual content--while reinforcement learning governs their collaboration to ensure coherent and goal-directed behavior. Unlike existing approaches that rely on monolithic models or hand-crafted pipelines, our method treats image editing as a sequential decision-making problem, enabling dynamic and context-aware editing strategies. Experimental results demonstrate that ImageEdit-R1 consistently outperforms both individual closed-source diffusion models and alternative multi-agent framework baselines across multiple image editing datasets.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.