소규모 단계 확산 증류를 위한 연속 시간 분포 매칭
Continuous-Time Distribution Matching for Few-Step Diffusion Distillation
단계 증류는 확산 모델의 속도 향상에 널리 사용되는 기술이며, 그중 분포 매칭 증류(DMD)와 일관성 증류는 대표적인 방법입니다. 일관성 방법은 전체 확률 흐름 방정식(PF-ODE) 경로를 따라 자체 일관성을 강제하여 이를 실제 데이터 매니폴드로 유도하는 반면, 일반적인 DMD는 몇 개의 미리 정의된 이산 시간 단계에서 제한적인 감독 신호를 사용합니다. 이러한 제한적인 이산 시간 방식과 역 KL 발산의 모드 탐색 특성은 시각적 왜곡 및 과도한 평활화를 초래하는 경향이 있으며, 종종 시각적 충실도를 복원하기 위해 GAN 또는 보상 모델과 같은 복잡한 보조 모듈이 필요합니다. 본 연구에서는 DMD 프레임워크를 이산 고정 방식에서 연속 최적화 방식으로 처음으로 전환하는 연속 시간 분포 매칭(CDM)을 소개합니다. CDM은 두 가지 연속 시간 설계를 통해 이를 달성합니다. 첫째, 고정된 이산 스케줄을 임의의 길이의 동적 연속 스케줄로 대체하여, 분포 매칭을 샘플링 경로의 특정 지점에서만 수행하는 것이 아니라 임의의 지점에서 수행하도록 합니다. 둘째, 학생 모델의 속도장을 통해 외삽된 잠재 변수에 대한 능동적인 오프 트랙 매칭을 수행하는 연속 시간 정렬 목표를 제안하여 일반화 성능을 향상시키고 미세한 시각적 디테일을 보존합니다. SD3-Medium 및 Longcat-Image를 포함한 다양한 아키텍처에 대한 광범위한 실험 결과, CDM은 복잡한 보조 목표 없이도 소규모 단계 이미지 생성을 위한 매우 경쟁력 있는 시각적 충실도를 제공한다는 것을 보여줍니다. 코드: https://github.com/byliutao/cdm
Step distillation has become a leading technique for accelerating diffusion models, among which Distribution Matching Distillation (DMD) and Consistency Distillation are two representative paradigms. While consistency methods enforce self-consistency along the full PF-ODE trajectory to steer it toward the clean data manifold, vanilla DMD relies on sparse supervision at a few predefined discrete timesteps. This restricted discrete-time formulation and mode-seeking nature of the reverse KL divergence tends to exhibit visual artifacts and over-smoothed outputs, often necessitating complex auxiliary modules -- such as GANs or reward models -- to restore visual fidelity. In this work, we introduce Continuous-Time Distribution Matching (CDM), migrating the DMD framework from discrete anchoring to continuous optimization for the first time. CDM achieves this through two continuous-time designs. First, we replace the fixed discrete schedule with a dynamic continuous schedule of random length, so that distribution matching is enforced at arbitrary points along sampling trajectories rather than only at a few fixed anchors. Second, we propose a continuous-time alignment objective that performs active off-trajectory matching on latents extrapolated via the student's velocity field, improving generalization and preserving fine visual details. Extensive experiments on different architectures, including SD3-Medium and Longcat-Image, demonstrate that CDM provides highly competitive visual fidelity for few-step image generation without relying on complex auxiliary objectives. Code is available at https://github.com/byliutao/cdm.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.