RewardFlow: 보상을 최적화하여 이미지를 생성하는 방법
RewardFlow: Generate Images by Optimizing What You Reward
본 논문에서는 RewardFlow라는, 사전 학습된 확산(diffusion) 및 플로우 매칭(flow-matching) 모델을 추론 시에 다중 보상(multi-reward) 기반 Langevin 동역학을 통해 제어하는, 역방향(inversion-free) 프레임워크를 소개합니다. RewardFlow는 의미론적 정렬, 인식적 충실도, 지역적 연관성, 객체 일관성, 그리고 인간 선호도에 대한 상호 보완적인 미분 가능한 보상들을 통합하며, 또한 언어-시각 추론을 통해 미세한 수준의 의미론적 감독을 제공하는 미분 가능한 VQA 기반 보상을 추가적으로 도입합니다. 이러한 다양한 목표들을 조율하기 위해, 우리는 프롬프트(prompt) 정보를 활용하여 의미론적 기본 요소들을 추출하고, 편집 의도를 추론하며, 샘플링 과정 전체에 걸쳐 보상 가중치와 스텝 크기를 동적으로 조절하는 적응형 정책을 설계했습니다. 여러 이미지 편집 및 합성 생성 벤치마크에서, RewardFlow는 최첨단 수준의 편집 정확도와 합성 일관성을 보여줍니다.
We introduce RewardFlow, an inversion-free framework that steers pretrained diffusion and flow-matching models at inference time through multi-reward Langevin dynamics. RewardFlow unifies complementary differentiable rewards for semantic alignment, perceptual fidelity, localized grounding, object consistency, and human preference, and further introduces a differentiable VQA-based reward that provides fine-grained semantic supervision through language-vision reasoning. To coordinate these heterogeneous objectives, we design a prompt-aware adaptive policy that extracts semantic primitives from the instruction, infers edit intent, and dynamically modulates reward weights and step sizes throughout sampling. Across several image editing and compositional generation benchmarks, RewardFlow delivers state-of-the-art edit fidelity and compositional alignment.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.