2602.09014v1 Feb 09, 2026 cs.CV

ArcFlow: 고정밀 비선형 흐름 증류를 통한 2단계 텍스트-이미지 생성

ArcFlow: Unleashing 2-Step Text-to-Image Generation via High-Precision Non-Linear Flow Distillation

Zihan Yang
Zihan Yang
Citations: 2
h-index: 1
Shuyuan Tu
Shuyuan Tu
Citations: 194
h-index: 6
Licheng Zhang
Licheng Zhang
Citations: 415
h-index: 13
Qi Dai
Qi Dai
Citations: 52
h-index: 3
Yu-Gang Jiang
Yu-Gang Jiang
Citations: 291
h-index: 8
Zuxuan Wu Fudan University
Zuxuan Wu Fudan University
Citations: 0
h-index: 0
Microsoft Research Asia
Microsoft Research Asia
Citations: 4
h-index: 1

확산 모델은 놀라운 생성 품질을 달성했지만, 여러 개의 순차적인 노이즈 제거 단계를 필요로 하기 때문에 추론 비용이 상당히 높습니다. 이러한 문제를 해결하기 위해 최근에는 이 추론 과정을 몇 단계로 압축하는 연구가 진행되고 있습니다. 그러나 기존의 증류 방법은 일반적으로 선형 단축 경로를 사용하여 교사 모델의 궤적을 근사화하는데, 이는 시간 단계에 따라 끊임없이 변화하는 접선 방향을 정확하게 반영하기 어렵기 때문에 품질 저하를 초래합니다. 이러한 한계를 극복하기 위해, 우리는 사전 훈련된 교사 모델의 궤적을 명시적으로 비선형 흐름 궤적으로 근사하는 몇 단계 증류 프레임워크인 ArcFlow를 제안합니다. 구체적으로, ArcFlow는 추론 궤적의 기반이 되는 속도장을 연속적인 운동량 프로세스의 혼합으로 매개변수화합니다. 이를 통해 ArcFlow는 속도 변화를 포착하고 각 노이즈 제거 단계 내에서 일관된 속도를 추론하여 연속적인 비선형 궤적을 형성할 수 있습니다. 더욱 중요한 점은, 이러한 매개변수화는 이 비선형 궤적의 해석적 적분을 가능하게 하여, 수치적 이산화 오류를 피하고 교사 모델 궤적을 고정밀도로 근사할 수 있습니다. 이 매개변수화를 몇 단계 생성기로 훈련하기 위해, 우리는 가벼운 어댑터를 사용하여 사전 훈련된 교사 모델에 대한 궤적 증류를 통해 ArcFlow를 구현합니다. 이 전략은 빠른 수렴과 안정성을 보장하면서 생성적 다양성과 품질을 유지합니다. 대규모 모델(Qwen-Image-20B 및 FLUX.1-dev)을 기반으로 하는 ArcFlow는 원래 다단계 모델의 5% 미만의 매개변수만 미세 조정하고, 원본 모델보다 40배 빠른 속도로 2개의 신경망 전진 연산(NFE)만 사용하여 상당한 품질 저하 없이 속도를 향상시킵니다. 벤치마크 실험 결과는 ArcFlow가 정성적으로나 정량적으로 효과적임을 보여줍니다.

Original Abstract

Diffusion models have achieved remarkable generation quality, but they suffer from significant inference cost due to their reliance on multiple sequential denoising steps, motivating recent efforts to distill this inference process into a few-step regime. However, existing distillation methods typically approximate the teacher trajectory by using linear shortcuts, which makes it difficult to match its constantly changing tangent directions as velocities evolve across timesteps, thereby leading to quality degradation. To address this limitation, we propose ArcFlow, a few-step distillation framework that explicitly employs non-linear flow trajectories to approximate pre-trained teacher trajectories. Concretely, ArcFlow parameterizes the velocity field underlying the inference trajectory as a mixture of continuous momentum processes. This enables ArcFlow to capture velocity evolution and extrapolate coherent velocities to form a continuous non-linear trajectory within each denoising step. Importantly, this parameterization admits an analytical integration of this non-linear trajectory, which circumvents numerical discretization errors and results in high-precision approximation of the teacher trajectory. To train this parameterization into a few-step generator, we implement ArcFlow via trajectory distillation on pre-trained teacher models using lightweight adapters. This strategy ensures fast, stable convergence while preserving generative diversity and quality. Built on large-scale models (Qwen-Image-20B and FLUX.1-dev), ArcFlow only fine-tunes on less than 5% of original parameters and achieves a 40x speedup with 2 NFEs over the original multi-step teachers without significant quality degradation. Experiments on benchmarks show the effectiveness of ArcFlow both qualitatively and quantitatively.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!