WaveFormer: 파동 방정식을 이용한 주파수-시간 분리 시각 모델링
WaveFormer: Frequency-Time Decoupled Vision Modeling with Wave Equation
트랜스포머는 시각적 의존성을 포착하는 어텐션 메커니즘을 통해 시각 모델링 분야에서 빠르게 발전해 왔지만, 의미 정보가 공간적으로 어떻게 전파되는지에 대한 체계적인 설명은 부족합니다. 본 연구에서는 파동 기반의 관점에서 이 문제를 재검토합니다. 특징 맵은 내부 전파 시간(네트워크 깊이와 연관)에 따른 공간 신호로 간주되며, 이 신호의 변화는 감쇠되지 않은 파동 방정식으로 제어됩니다. 이러한 모델링 방식에서 공간 주파수, 즉 저주파의 전역 레이아웃부터 고주파의 가장자리 및 질감에 이르기까지가 명시적으로 모델링되며, 전파 시간과의 상호 작용은 암묵적으로 고정되는 것이 아니라 제어됩니다. 우리는 닫힌 형식의, 주파수-시간 분리 해를 도출하고 이를 Wave Propagation Operator (WPO)라는 경량 모듈로 구현했습니다. WPO는 O(N log N)의 시간 복잡도로 전역 상호 작용을 모델링하며, 이는 어텐션 기반 방식보다 훨씬 빠릅니다. WPO를 기반으로, 기존의 ViT 및 CNN을 대체할 수 있는 WaveFormer 모델 패밀리를 제안합니다. 제안하는 모델은 이미지 분류, 객체 탐지 및 의미 분할에서 경쟁력 있는 정확도를 달성하는 동시에, 어텐션 기반 방식보다 최대 1.6배 더 높은 처리량과 30% 더 적은 FLOPs를 제공합니다. 또한, 실험 결과는 파동 전파가 열 기반 방법과 상호 보완적인 모델링 편향을 도입하여, 풍부한 시각 의미를 이해하는 데 필수적인 전역 일관성과 고주파 세부 사항을 효과적으로 포착한다는 것을 보여줍니다. 관련 코드는 다음 주소에서 확인할 수 있습니다: https://github.com/ZishanShu/WaveFormer.
Vision modeling has advanced rapidly with Transformers, whose attention mechanisms capture visual dependencies but lack a principled account of how semantic information propagates spatially. We revisit this problem from a wave-based perspective: feature maps are treated as spatial signals whose evolution over an internal propagation time (aligned with network depth) is governed by an underdamped wave equation. In this formulation, spatial frequency-from low-frequency global layout to high-frequency edges and textures-is modeled explicitly, and its interaction with propagation time is controlled rather than implicitly fixed. We derive a closed-form, frequency-time decoupled solution and implement it as the Wave Propagation Operator (WPO), a lightweight module that models global interactions in O(N log N) time-far lower than attention. Building on WPO, we propose a family of WaveFormer models as drop-in replacements for standard ViTs and CNNs, achieving competitive accuracy across image classification, object detection, and semantic segmentation, while delivering up to 1.6x higher throughput and 30% fewer FLOPs than attention-based alternatives. Furthermore, our results demonstrate that wave propagation introduces a complementary modeling bias to heat-based methods, effectively capturing both global coherence and high-frequency details essential for rich visual semantics. Codes are available at: https://github.com/ZishanShu/WaveFormer.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.