RGB-이벤트 기반 시각 객체 추적을 위한 주파수 영역에서의 진폭 및 위상 어텐션 분리
Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking
기존의 RGB-이벤트 시각 객체 추적 방법은 주로 기존의 특징 수준 융합에 의존하며, 이벤트 카메라의 고유한 장점을 충분히 활용하지 못합니다. 특히, 이벤트 카메라의 높은 다이나믹 레인지와 동작 감지 능력은 종종 간과되며, 정보가 부족한 영역은 동일하게 처리되어 백본 네트워크의 불필요한 계산 부담을 초래합니다. 이러한 문제를 해결하기 위해, 우리는 주파수 영역에서 조기 융합을 수행하는 새로운 추적 프레임워크를 제안합니다. 이를 통해 이벤트 모달리티에서 얻은 고주파 정보의 효과적인 통합이 가능합니다. 구체적으로, RGB 및 이벤트 모달리티는 고속 푸리에 변환을 통해 공간 영역에서 주파수 영역으로 변환되며, 이들의 진폭 및 위상 구성 요소가 분리됩니다. 고주파 이벤트 정보는 진폭 및 위상 어텐션을 통해 선택적으로 RGB 모달리티에 융합되어 특징 표현을 향상시키면서 백본 네트워크의 계산량을 크게 줄입니다. 또한, 동작 정보를 활용하는 공간 희소화 모듈은 이벤트 카메라의 동작 감지 능력을 활용하여 대상의 동작 힌트와 공간 확률 분포 간의 관계를 파악하고, 정보가 부족한 영역을 제거하여 대상과 관련된 특징을 강화합니다. 마지막으로, 대상과 관련된 특징의 희소 집합이 백본 네트워크에 입력되어 학습을 수행하고, 추적 헤드는 최종 대상 위치를 예측합니다. FE108, FELT 및 COESOT을 포함한 세 가지 널리 사용되는 RGB-이벤트 추적 벤치마크 데이터 세트에 대한 광범위한 실험 결과는 제안된 방법의 높은 성능과 효율성을 입증합니다. 본 논문의 소스 코드는 https://github.com/Event-AHU/OpenEvTracking 에서 공개될 예정입니다.
Existing RGB-Event visual object tracking approaches primarily rely on conventional feature-level fusion, failing to fully exploit the unique advantages of event cameras. In particular, the high dynamic range and motion-sensitive nature of event cameras are often overlooked, while low-information regions are processed uniformly, leading to unnecessary computational overhead for the backbone network. To address these issues, we propose a novel tracking framework that performs early fusion in the frequency domain, enabling effective aggregation of high-frequency information from the event modality. Specifically, RGB and event modalities are transformed from the spatial domain to the frequency domain via the Fast Fourier Transform, with their amplitude and phase components decoupled. High-frequency event information is selectively fused into RGB modality through amplitude and phase attention, enhancing feature representation while substantially reducing backbone computation. In addition, a motion-guided spatial sparsification module leverages the motion-sensitive nature of event cameras to capture the relationship between target motion cues and spatial probability distribution, filtering out low-information regions and enhancing target-relevant features. Finally, a sparse set of target-relevant features is fed into the backbone network for learning, and the tracking head predicts the final target position. Extensive experiments on three widely used RGB-Event tracking benchmark datasets, including FE108, FELT, and COESOT, demonstrate the high performance and efficiency of our method. The source code of this paper will be released on https://github.com/Event-AHU/OpenEvTracking
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.