2601.08602v1 Jan 13, 2026 cs.CV

WaveFormer: 파동 방정식을 이용한 주파수-시간 분리 시각 모델링

WaveFormer: Frequency-Time Decoupled Vision Modeling with Wave Equation

Hongyu Zhang
Hongyu Zhang
Citations: 14
h-index: 3
Zishan Shu
Zishan Shu
Citations: 11
h-index: 2
Juntong Wu
Juntong Wu
Citations: 50
h-index: 3
Wei Yan
Wei Yan
Citations: 45
h-index: 2
Xudong Liu
Xudong Liu
Citations: 13
h-index: 1
Chang Liu
Chang Liu
Citations: 1
h-index: 1
Youdong Mao
Youdong Mao
Citations: 212
h-index: 6
Jie Chen
Jie Chen
Citations: 4
h-index: 1

트랜스포머는 시각적 의존성을 포착하는 어텐션 메커니즘을 통해 시각 모델링 분야에서 빠르게 발전해 왔지만, 의미 정보가 공간적으로 어떻게 전파되는지에 대한 체계적인 설명은 부족합니다. 본 연구에서는 파동 기반의 관점에서 이 문제를 재검토합니다. 특징 맵은 내부 전파 시간(네트워크 깊이와 연관)에 따른 공간 신호로 간주되며, 이 신호의 변화는 감쇠되지 않은 파동 방정식으로 제어됩니다. 이러한 모델링 방식에서 공간 주파수, 즉 저주파의 전역 레이아웃부터 고주파의 가장자리 및 질감에 이르기까지가 명시적으로 모델링되며, 전파 시간과의 상호 작용은 암묵적으로 고정되는 것이 아니라 제어됩니다. 우리는 닫힌 형식의, 주파수-시간 분리 해를 도출하고 이를 Wave Propagation Operator (WPO)라는 경량 모듈로 구현했습니다. WPO는 O(N log N)의 시간 복잡도로 전역 상호 작용을 모델링하며, 이는 어텐션 기반 방식보다 훨씬 빠릅니다. WPO를 기반으로, 기존의 ViT 및 CNN을 대체할 수 있는 WaveFormer 모델 패밀리를 제안합니다. 제안하는 모델은 이미지 분류, 객체 탐지 및 의미 분할에서 경쟁력 있는 정확도를 달성하는 동시에, 어텐션 기반 방식보다 최대 1.6배 더 높은 처리량과 30% 더 적은 FLOPs를 제공합니다. 또한, 실험 결과는 파동 전파가 열 기반 방법과 상호 보완적인 모델링 편향을 도입하여, 풍부한 시각 의미를 이해하는 데 필수적인 전역 일관성과 고주파 세부 사항을 효과적으로 포착한다는 것을 보여줍니다. 관련 코드는 다음 주소에서 확인할 수 있습니다: https://github.com/ZishanShu/WaveFormer.

Original Abstract

Vision modeling has advanced rapidly with Transformers, whose attention mechanisms capture visual dependencies but lack a principled account of how semantic information propagates spatially. We revisit this problem from a wave-based perspective: feature maps are treated as spatial signals whose evolution over an internal propagation time (aligned with network depth) is governed by an underdamped wave equation. In this formulation, spatial frequency-from low-frequency global layout to high-frequency edges and textures-is modeled explicitly, and its interaction with propagation time is controlled rather than implicitly fixed. We derive a closed-form, frequency-time decoupled solution and implement it as the Wave Propagation Operator (WPO), a lightweight module that models global interactions in O(N log N) time-far lower than attention. Building on WPO, we propose a family of WaveFormer models as drop-in replacements for standard ViTs and CNNs, achieving competitive accuracy across image classification, object detection, and semantic segmentation, while delivering up to 1.6x higher throughput and 30% fewer FLOPs than attention-based alternatives. Furthermore, our results demonstrate that wave propagation introduces a complementary modeling bias to heat-based methods, effectively capturing both global coherence and high-frequency details essential for rich visual semantics. Codes are available at: https://github.com/ZishanShu/WaveFormer.

1 Citations
0 Influential
49.313450944524 Altmetric
247.6 Score
Original PDF
192

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!