직접 곱셈 흐름 매칭: 몇 샷 적응을 위한 방사형 및 각도 동역학 분리
Direct Product Flow Matching: Decoupling Radial and Angular Dynamics for Few-Shot Adaptation
최근의 흐름 매칭(FM) 방법은 시각-언어 모델의 몇 샷 적응 성능을 향상시키기 위해, 교차 모달 정렬을 연속적인 다단계 흐름으로 모델링합니다. 본 논문에서는 기존 FM 방법들이 사전 훈련된 교차 모달 특징에 내재된 호환되지 않는 기하학적 사전 지식에 의해 제약되어 최적의 적응 성능을 달성하지 못한다고 주장합니다. 먼저, 본 논문은 이러한 방법들을 극좌표 분해 관점에서 분석합니다 (즉, 방사형 및 각도 부분 다양체). 이러한 새로운 기하학적 관점에서, 우리는 이들 방법에서 간과된 세 가지 제한 사항을 식별했습니다. 1) 각도 동역학 왜곡: 방사형-각도 결합은 각도 부분 다양체에 불균일한 속도를 유발하여 회귀 훈련의 어려움과 추가적인 절단 오류를 초래합니다. 2) 방사형 동역학 무시: 특징 정규화는 모달 신뢰도를 무시하여 분포 외부 데이터와 분포 내부 데이터를 구별하지 못하며, 중요한 방사형 동역학을 버립니다. 3) 컨텍스트에 구애받지 않는 조건 없는 흐름: 사전 훈련된 교차 모달 특징 추출 과정에서 발생하는 데이터셋 특정 정보 손실이 회복되지 않습니다. 이러한 문제들을 해결하기 위해, 우리는 warped product flow matching (WP-FM)이라는 통합 리만 프레임워크를 제안합니다. 이 프레임워크 내에서, 우리는 상수 워핑 메트릭을 도입하여 직접 곱셈 흐름 매칭 (DP-FM)을 도출합니다. DP-FM은 독립적인 방사형 진화와 일정한 속도의 각도 지오데식 수송을 가능하게 하여, 각도 동역학 왜곡을 효과적으로 제거하는 동시에 방사형 일관성을 유지합니다. 또한, 사전 훈련된 시각-언어 모델의 숨겨진 상태에 흐름을 조건부로 적용하여 분류기-프리 가이던스를 통합함으로써, 누락된 데이터셋 특정 정보를 주입합니다. 11개의 벤치마크에서 수행한 광범위한 실험 결과는 DP-FM이 다단계 몇 샷 적응에서 새로운 최고 성능을 달성했음을 보여줍니다.
Recent flow matching (FM) methods improve the few-shot adaptation of vision-language models, by modeling cross-modal alignment as a continuous multi-step flow. In this paper, we argue that existing FM methods are inherently constrained by incompatible geometric priors on pre-trained cross-modal features, resulting in suboptimal adaptation performance. We first analyze these methods from a polar decomposition perspective (i.e., radial and angular sub-manifolds). Under this new geometric view, we identify three overlooked limitations in them: 1) Angular dynamics distortion: The radial-angular coupling induces non-uniform speed on the angular sub-manifold, leading to regression training difficulty and extra truncation errors. 2) Radial dynamics neglect: Feature normalization discards modality confidence, failing to distinguish out-of-distribution and in-distribution data, and abandoning crucial radial dynamics. 3) Context-agnostic unconditional flow: Dataset-specific information loss during pre-trained cross-modal feature extraction remains unrecovered. To resolve these issues, we propose warped product flow matching (WP-FM), a unified Riemannian framework that reformulates alignment on a warped product manifold. Within this framework, we derive direct product flow matching (DP-FM) by introducing a constant-warping metric, which yields a decoupled cylindrical manifold (i.e., direct product manifold). DP-FM enables independent radial evolution and constant-speed angular geodesic transport, effectively eliminating angular dynamics distortion while preserving radial consistency. Meanwhile, we incorporate classifier-free guidance by conditioning the flow on the pre-trained VLMs' hidden states to inject missing dataset-specific information. Extensive results across 11 benchmarks have demonstrated that DP-FM achieves a new state-of-the-art for multi-step few-shot adaptation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.