2603.09415v1 Mar 10, 2026 cs.RO

흐름에서 한 단계로: 암묵적 최대 우도 추정 기반 분포 증류를 통한 실시간 다중 모드 경로 정책

From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation

Zhenshan Bing
Zhenshan Bing
Citations: 2,259
h-index: 25
Ju Dong
Ju Dong
Citations: 4
h-index: 1
Liding Zhang
Liding Zhang
Citations: 185
h-index: 7
Kaixin Bai
Kaixin Bai
Citations: 99
h-index: 7
Zoltán-Csaba Márton
Zoltán-Csaba Márton
Citations: 6,561
h-index: 31
Zhaopeng Chen
Zhaopeng Chen
Citations: 68
h-index: 5
Alois Knoll
Alois Knoll
Citations: 17
h-index: 2
Jianwei Zhang
Jianwei Zhang
Citations: 91
h-index: 6
Lei Zhang
Lei Zhang
Citations: 97
h-index: 2
Yuanyou Fu
Yuanyou Fu
Citations: 0
h-index: 0

확산 및 흐름 매칭 기반 생성 정책은 다중 모드 인간 시연을 모델링하여 로봇 조작 분야에서 뛰어난 성능을 보입니다. 그러나 이러한 정책들은 반복적인 상미분 방정식(ODE) 적분 과정에 의존하여 상당한 지연 시간을 발생시키므로 고주파 폐루프 제어를 제한합니다. 최근의 단일 단계 가속화 방법들은 이러한 오버헤드를 줄여주지만, 종종 분포 붕괴 현상을 보여 평균화된 경로를 생성하여 일관된 조작 전략을 수행하지 못합니다. 본 논문에서는 조건부 흐름 매칭(CFM) 전문가를 암묵적 최대 우도 추정(IMLE)을 통해 빠르고 단일 단계의 학생 모델로 증류하는 프레임워크를 제안합니다. 양방향 챔퍼 거리(Chamfer distance)를 활용한 집합 수준의 목적 함수는 모드 커버리지와 정확성을 모두 향상시켜, 교사 모델의 다중 모드 동작 분포를 단일 순방향 패스에서 유지할 수 있도록 합니다. 또한, 통합된 인식 인코더는 다중 뷰 RGB, 깊이, 포인트 클라우드 및 고유수용 정보를 기하학적 정보를 포함하는 표현으로 통합합니다. 결과적으로, 고주파 제어를 통해 실시간 재계획 및 동적 교란에 대한 향상된 강건성을 지원합니다.

Original Abstract

Generative policies based on diffusion and flow matching achieve strong performance in robotic manipulation by modeling multi-modal human demonstrations. However, their reliance on iterative Ordinary Differential Equation (ODE) integration introduces substantial latency, limiting high-frequency closed-loop control. Recent single-step acceleration methods alleviate this overhead but often exhibit distributional collapse, producing averaged trajectories that fail to execute coherent manipulation strategies. We propose a framework that distills a Conditional Flow Matching (CFM) expert into a fast single-step student via Implicit Maximum Likelihood Estimation (IMLE). A bi-directional Chamfer distance provides a set-level objective that promotes both mode coverage and fidelity, enabling preservation of the teacher multi-modal action distribution in a single forward pass. A unified perception encoder further integrates multi-view RGB, depth, point clouds, and proprioception into a geometry-aware representation. The resulting high-frequency control supports real-time receding-horizon re-planning and improved robustness under dynamic disturbances.

0 Citations
0 Influential
15.5 Altmetric
77.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!