CoF-T2I: 비디오 모델을 활용한 순수 시각 추론 기반 텍스트-이미지 생성
CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation
최근 비디오 생성 모델들은 프레임 단위의 시각적 추론을 가능하게 하는 체인-오브-프레임(CoF) 추론 능력을 보여주었습니다. 이러한 능력을 통해 비디오 모델은 다양한 시각적 작업(예: 미로 풀이, 시각적 퍼즐)에 성공적으로 적용되었습니다. 그러나 명확하게 정의된 시각적 추론의 시작점과 해석 가능한 중간 상태가 텍스트-이미지(T2I) 생성 과정에 부재하기 때문에, T2I 생성 능력을 향상시키기 위한 잠재력은 아직 크게 활용되지 못했습니다. 이러한 격차를 해소하기 위해, 우리는 CoF-T2I라는 모델을 제안합니다. CoF-T2I는 점진적인 시각적 개선을 통해 CoF 추론을 T2I 생성에 통합하며, 중간 프레임이 명시적인 추론 단계로 작용하고 최종 프레임을 출력으로 사용합니다. 이러한 명시적인 생성 과정을 구축하기 위해, 우리는 의미에서 미학까지 생성 과정을 모델링하는 CoF 경로 데이터셋인 CoF-Evol-Instruct를 구축했습니다. 또한, 품질을 향상시키고 모션 아티팩트를 방지하기 위해, 각 프레임에 대해 독립적인 인코딩 연산을 수행합니다. 실험 결과, CoF-T2I는 기본 비디오 모델보다 훨씬 우수한 성능을 보이며, 어려운 벤치마크에서 경쟁력 있는 성능을 달성했습니다. GenEval에서 0.86, Imagine-Bench에서 7.468의 점수를 기록했습니다. 이러한 결과는 비디오 모델이 고품질 텍스트-이미지 생성 기술을 발전시키는 데 상당한 잠재력을 가지고 있음을 시사합니다.
Recent video generation models have revealed the emergence of Chain-of-Frame (CoF) reasoning, enabling frame-by-frame visual inference. With this capability, video models have been successfully applied to various visual tasks (e.g., maze solving, visual puzzles). However, their potential to enhance text-to-image (T2I) generation remains largely unexplored due to the absence of a clearly defined visual reasoning starting point and interpretable intermediate states in the T2I generation process. To bridge this gap, we propose CoF-T2I, a model that integrates CoF reasoning into T2I generation via progressive visual refinement, where intermediate frames act as explicit reasoning steps and the final frame is taken as output. To establish such an explicit generation process, we curate CoF-Evol-Instruct, a dataset of CoF trajectories that model the generation process from semantics to aesthetics. To further improve quality and avoid motion artifacts, we enable independent encoding operation for each frame. Experiments show that CoF-T2I significantly outperforms the base video model and achieves competitive performance on challenging benchmarks, reaching 0.86 on GenEval and 7.468 on Imagine-Bench. These results indicate the substantial promise of video models for advancing high-quality text-to-image generation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.