생성 모델 가속화를 위한 양방향 고정점 보간 솔버
Bi-Anchor Interpolation Solver for Accelerating Generative Modeling
플로우 매칭(FM) 모델은 고품질 생성의 선도적인 방법론으로 부상했습니다. 그러나, 이 모델들은 반복적인 상미분 방정식(ODE) 해법에 의존하며, 이는 상당한 지연 병목 현상을 야기합니다. 기존 솔루션은 훈련 없이 작동하는 방식과 훈련 기반의 단일 또는 소수의 단계 생성 방식 간의 이분법적 대립에 직면합니다. 훈련 없이 작동하는 방식은 Neural Function Evaluations (NFEs) 수가 적을수록 성능 저하가 심하며, 훈련 기반 방식은 엄청난 훈련 비용이 발생하고 플러그 앤 플레이 방식의 유연성이 부족합니다. 이러한 격차를 해소하기 위해, 본 연구에서는 양방향 고정점 보간 솔버(BA-solver)를 제안합니다. BA-solver는 표준 훈련 없이 작동하는 방식의 유연성을 유지하면서, 동결된(frozen) 기반 모델과 함께 경량 SideNet(기반 모델 크기의 1~2%)을 도입하여 상당한 속도 향상을 달성합니다. 구체적으로, 본 방법은 다음 두 가지의 시너지 효과를 활용합니다. extbf{1) 양방향 시간 인지(Bidirectional Temporal Perception)}, 여기서 SideNet은 기반 모델을 재훈련하지 않고 미래 및 과거 속도를 모두 추정하도록 학습됩니다. 그리고 extbf{2) 양방향 고정점 속도 통합(Bi-Anchor Velocity Integration)}, 이는 SideNet과 두 개의 고정점 속도를 사용하여 일괄 처리된 고차 적분(batched high-order integration)을 위한 중간 속도를 효율적으로 추정합니다. 기반 모델을 사용하여 고정밀 “고정점”을 설정하고, SideNet을 사용하여 경로를 밀도를 높임으로써, BA-solver는 최소한의 오차로 큰 간격 크기를 가능하게 합니다. ImageNet-256^2 데이터셋에 대한 실험 결과는 BA-solver가 10 NFEs로 100+ NFEs의 Euler 솔버와 동등한 생성 품질을 달성하고, 5 NFEs로도 높은 충실도를 유지하며, 거의 무시할 수 있는 훈련 비용만 발생한다는 것을 보여줍니다. 또한, BA-solver는 기존 생성 파이프라인과 원활하게 통합되어 이미지 편집과 같은 후속 작업을 용이하게 합니다.
Flow Matching (FM) models have emerged as a leading paradigm for high-fidelity synthesis. However, their reliance on iterative Ordinary Differential Equation (ODE) solving creates a significant latency bottleneck. Existing solutions face a dichotomy: training-free solvers suffer from significant performance degradation at low Neural Function Evaluations (NFEs), while training-based one- or few-steps generation methods incur prohibitive training costs and lack plug-and-play versatility. To bridge this gap, we propose the Bi-Anchor Interpolation Solver (BA-solver). BA-solver retains the versatility of standard training-free solvers while achieving significant acceleration by introducing a lightweight SideNet (1-2% backbone size) alongside the frozen backbone. Specifically, our method is founded on two synergistic components: \textbf{1) Bidirectional Temporal Perception}, where the SideNet learns to approximate both future and historical velocities without retraining the heavy backbone; and 2) Bi-Anchor Velocity Integration, which utilizes the SideNet with two anchor velocities to efficiently approximate intermediate velocities for batched high-order integration. By utilizing the backbone to establish high-precision ``anchors'' and the SideNet to densify the trajectory, BA-solver enables large interval sizes with minimized error. Empirical results on ImageNet-256^2 demonstrate that BA-solver achieves generation quality comparable to 100+ NFEs Euler solver in just 10 NFEs and maintains high fidelity in as few as 5 NFEs, incurring negligible training costs. Furthermore, BA-solver ensures seamless integration with existing generative pipelines, facilitating downstream tasks such as image editing.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.