과거 정보를 활용하는 다중 라운드 대화형 이미지 생성: 히스토리 기반의 멀티모달 대규모 언어 모델 활용
Non-Markov Multi-Round Conversational Image Generation with History-Conditioned MLLMs
대화형 이미지 생성 모델은 여러 라운드의 상호 작용 과정에서 사용자 지시를 따르도록 설계되어야 하며, 이는 텍스트와 이미지로 구성된 대화 기록에 기반합니다. 최근 멀티모달 대규모 언어 모델(MLLM)은 이미지 생성 및 편집 기능을 제공하지만, 대부분의 기존 다중 라운드 벤치마크 및 학습 방법은 마르코프(Markov) 속성을 가지므로, 즉 다음 출력이 가장 최근 이미지에 크게 의존합니다. 이러한 방식은 장기적인 대화 기록을 무시하는 단순화된 해결책을 가능하게 합니다. 본 연구에서는 사용자가 이전 상태를 참조하거나, 변경 사항을 취소하거나, 여러 라운드 전에 언급된 개체를 참조하는 등 더 어려운 비-마르코프(non-Markov) 환경을 공식화하고 목표로 합니다. 우리는 (i) 롤백(rollback) 방식의 편집을 통해 이전 시각적 상태를 검색하도록 강제하고, 이름 기반의 다중 라운드 개인화를 통해 이름을 사용하여 여러 라운드에서 시각적 표현을 연결하는 등 비-마르코프 다중 라운드 데이터 구축 전략을 제시합니다. (ii) 토큰 단위 캐싱을 사용하여 다중 라운드에서 발생하는 개체(identity)의 일관성 문제를 방지하는, 히스토리 기반의 학습 및 추론 프레임워크를 개발합니다. (iii) 재구성을 기반으로 하는 DiT 디토크나이저와 다단계 미세 조정 교육 과정을 포함하여, 고품질 이미지 재구성 및 편집 가능한 개인화 성능을 향상시킵니다. 실험 결과, 비-마르코프 상호 작용을 위한 명시적인 학습은 다중 라운드 일관성 및 지시 준수 성능을 크게 향상시키며, 동시에 강력한 단일 라운드 편집 및 개인화 성능을 유지함을 확인했습니다.
Conversational image generation requires a model to follow user instructions across multiple rounds of interaction, grounded in interleaved text and images that accumulate as chat history. While recent multimodal large language models (MLLMs) can generate and edit images, most existing multi-turn benchmarks and training recipes are effectively Markov: the next output depends primarily on the most recent image, enabling shortcut solutions that ignore long-range history. In this work we formalize and target the more challenging non-Markov setting, where a user may refer back to earlier states, undo changes, or reference entities introduced several rounds ago. We present (i) non-Markov multi-round data construction strategies, including rollback-style editing that forces retrieval of earlier visual states and name-based multi-round personalization that binds names to appearances across rounds; (ii) a history-conditioned training and inference framework with token-level caching to prevent multi-round identity drift; and (iii) enabling improvements for high-fidelity image reconstruction and editable personalization, including a reconstruction-based DiT detokenizer and a multi-stage fine-tuning curriculum. We demonstrate that explicitly training for non-Markov interactions yields substantial improvements in multi-round consistency and instruction compliance, while maintaining strong single-round editing and personalization.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.