RELO: 시각적 객체 추적을 위한 강화 학습 기반 지역화 방법
RELO: Reinforcement Learning to Localize for Visual Object Tracking
기존의 시각적 객체 추적 시스템은 일반적으로 수작업으로 설계된 공간적 사전 정보를 활용하여 대상 객체의 위치를 추정하며, 이 정보는 주로 히트맵 형태로 제공됩니다. 이러한 사전 정보는 제한적인 형태의 지도 학습을 제공하며, IoU (Intersection over Union) 및 성공 곡선 아래 영역 (AUC)과 같은 추적 최적화 및 평가 지표와 일관성이 떨어지는 경향이 있습니다. 본 논문에서는 시각적 객체 추적을 위한 강화 학습 기반 지역화 방법인 RELO를 제안합니다. RELO는 대상 객체 지역화를 마르코프 의사 결정 문제로 정의하고, 수작업으로 설계된 공간적 사전 정보를 강화 학습을 통해 학습된 지역화 정책으로 대체합니다. 이 정책은 프레임 단위 IoU와 시퀀스 단위 AUC를 결합한 보상을 사용하여 학습됩니다. 또한, 시맨틱 일관성을 향상시키기 위해 레이어 정렬된 시간적 토큰 전파 기법을 도입하며, 이는 계산 비용에 거의 영향을 미치지 않습니다. 다양한 벤치마크 테스트에서 RELO는 우수한 성능을 보였으며, 템플릿 업데이트 없이 LaSOText 데이터셋에서 57.5%의 AUC를 달성했습니다. 이는 보상 기반 지역화가 시각적 객체 추적에서 사전 정보 기반 지역화에 대한 효과적인 대안이 될 수 있음을 시사합니다.
Conventional visual object trackers localize targets using handcrafted spatial priors, often in the form of heatmaps. Such priors provide only surrogate supervision and are poorly aligned with tracking optimization and evaluation metrics, such as intersection over union (IoU) and area under the success curve (AUC). Here, we introduce RELO, a REinforcement-learning-to-LOcalize method for visual object tracking that formulates target localization as a Markov decision process. Specifically, RELO replaces handcrafted spatial priors with a localization policy learned over spatial positions via reinforcement learning, with rewards combining frame-level IoU and sequence-level AUC. We additionally introduce layer-aligned temporal token propagation to improve semantic consistency across frames, with negligible computational overhead. Across multiple benchmarks, RELO achieves superior results, attaining 57.5% AUC on LaSOText without template updates. This confirms that reward-driven localization provides an effective alternative to prior-driven localization for visual object tracking.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.