2603.18627v1 Mar 19, 2026 cs.AI

공간 정보를 반영한 텍스트-이미지 생성에서의 능동적 흐름 제어 및 병렬 탐색

Agentic Flow Steering and Parallel Rollout Search for Spatially Grounded Text-to-Image Generation

Ping Chen
Ping Chen
Citations: 6
h-index: 2
Daoxuan Zhang
Daoxuan Zhang
Citations: 3
h-index: 1
Xiangming Wang
Xiangming Wang
Citations: 34
h-index: 2
Yung-Hsing Liu
Yung-Hsing Liu
Citations: 3
h-index: 1
Haijin Zeng
Haijin Zeng
Citations: 234
h-index: 9
Yongyong Chen
Yongyong Chen
Citations: 150
h-index: 7

정교한 텍스트-이미지(T2I) 생성은 큰 성공을 거두었지만, 정적인 텍스트 인코더의 제한적인 관계 추론 능력과 개방형 샘플링 과정에서의 오류 누적이라는 문제에 직면해 있습니다. 실시간 피드백이 없으면, 상미분 방정식 경로 초기에 발생하는 의미적 모호성이 필연적으로 공간 제약 조건에서 벗어나는 확률적 편차로 이어집니다. 이러한 격차를 해소하기 위해, 우리는 FLUX.1-dev를 기반으로 구축된 훈련이 필요 없는 폐루프 프레임워크인 AFS-Search (Agentic Flow Steering and Parallel Rollout Search)를 소개합니다. AFS-Search는 훈련이 필요 없는 폐루프 병렬 탐색 및 흐름 제어 메커니즘을 통합하여, 비전-언어 모델(VLM)을 의미론적 비평가로 활용하여 중간 단계의 잠재 변수를 진단하고, 정확한 공간 정보를 기반으로 속도장을 동적으로 제어합니다. 또한, 우리는 T2I 생성을 순차적 의사 결정 과정으로 정의하고, 예측 시뮬레이션을 통해 여러 경로를 탐색하고, VLM 기반 보상을 통해 최적의 경로를 선택합니다. 더 나아가, 우리는 더 높은 성능을 위한 AFS-Search-Pro와 더 빠른 생성을 위한 AFS-Search-Fast를 제공합니다. 실험 결과는 AFS-Search-Pro가 원래의 FLUX.1-dev의 성능을 크게 향상시켜 세 가지 서로 다른 벤치마크에서 최고 수준의 결과를 달성한다는 것을 보여줍니다. 동시에, AFS-Search-Fast는 빠른 생성 속도를 유지하면서도 성능을 크게 향상시킵니다.

Original Abstract

Precise Text-to-Image (T2I) generation has achieved great success but is hindered by the limited relational reasoning of static text encoders and the error accumulation in open-loop sampling. Without real-time feedback, initial semantic ambiguities during the Ordinary Differential Equation trajectory inevitably escalate into stochastic deviations from spatial constraints. To bridge this gap, we introduce AFS-Search (Agentic Flow Steering and Parallel Rollout Search), a training-free closed-loop framework built upon FLUX.1-dev. AFS-Search incorporates a training-free closed-loop parallel rollout search and flow steering mechanism, which leverages a Vision-Language Model (VLM) as a semantic critic to diagnose intermediate latents and dynamically steer the velocity field via precise spatial grounding. Complementarily, we formulate T2I generation as a sequential decision-making process, exploring multiple trajectories through lookahead simulations and selecting the optimal path based on VLM-guided rewards. Further, we provide AFS-Search-Pro for higher performance and AFS-Search-Fast for quicker generation. Experimental results show that our AFS-Search-Pro greatly boosts the performance of the original FLUX.1-dev, achieving state-of-the-art results across three different benchmarks. Meanwhile, AFS-Search-Fast also significantly enhances performance while maintaining fast generation speed.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!