이벤트 스트림 기반 시각 객체 추적을 위한 동적 가중치 희소성 인식 Mixture-of-Experts Transformer
Dynamic Pondering Sparsity-aware Mixture-of-Experts Transformer for Event Stream based Visual Object Tracking
RGB 기반 추적기는 상당한 발전에도 불구하고, 낮은 조명과 빠른 움직임과 같은 어려운 환경 조건에 취약합니다. 이벤트 카메라는 픽셀 단위의 밝기 변화를 비동기적으로 캡처하여 높은 다이나믹 레인지와 높은 시간 분해능을 제공하므로 유망한 대안입니다. 그러나 기존의 이벤트 기반 추적기는 종종 이벤트 데이터의 고유한 공간적 희소성과 시간적 밀도를 간과하며, 다양한 움직임 역학적 특성 하에서 최적이 아닌 단일 고정 시간 윈도우 샘플링 전략에 의존합니다. 본 논문에서는 이벤트 밀도 변화를 여러 시간 척도에 걸쳐 명시적으로 모델링하는 이벤트 희소성 인식 추적 프레임워크를 제안합니다. 구체적으로, 제안된 프레임워크는 세 단계로 구성된 Vision Transformer 백본에 희소, 중간 밀도 및 밀집 이벤트 검색 영역을 점진적으로 주입하여 계층적 다중 밀도 특징 학습을 가능하게 합니다. 또한, 다양한 희소성 패턴 하에서 전문가의 전문화를 장려하는 희소성 인식 Mixture-of-Experts 모듈을 도입하고, 추적 난이도에 따라 추론 깊이를 적응적으로 조정하는 동적 가중치 전략을 설계했습니다. FE240hz, COESOT, EventVOT 데이터 세트에서 수행한 광범위한 실험 결과, 제안된 방법은 추적 정확도와 계산 효율성 간의 우수한 균형을 달성하는 것으로 나타났습니다. 소스 코드는 https://github.com/Event-AHU/OpenEvTracking 에서 공개될 예정입니다.
Despite significant progress, RGB-based trackers remain vulnerable to challenging imaging conditions, such as low illumination and fast motion. Event cameras offer a promising alternative by asynchronously capturing pixel-wise brightness changes, providing high dynamic range and high temporal resolution. However, existing event-based trackers often neglect the intrinsic spatial sparsity and temporal density of event data, while relying on a single fixed temporal-window sampling strategy that is suboptimal under varying motion dynamics. In this paper, we propose an event sparsity-aware tracking framework that explicitly models event-density variations across multiple temporal scales. Specifically, the proposed framework progressively injects sparse, medium-density, and dense event search regions into a three-stage Vision Transformer backbone, enabling hierarchical multi-density feature learning. Furthermore, we introduce a sparsity-aware Mixture-of-Experts module to encourage expert specialization under different sparsity patterns, and design a dynamic pondering strategy to adaptively adjust the inference depth according to tracking difficulty. Extensive experiments on FE240hz, COESOT, and EventVOT demonstrate that the proposed approach achieves a favorable trade-off between tracking accuracy and computational efficiency. The source code will be released on https://github.com/Event-AHU/OpenEvTracking.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.