ViewSAM: 뷰 정보를 활용한 교차 모달 의미 학습을 통한 약지도 학습 기반 교차 뷰 참조 다중 객체 추적
ViewSAM: Learning View-aware Cross-modal Semantics for Weakly Supervised Cross-view Referring Multi-Object Tracking
교차 뷰 참조 다중 객체 추적(CRMOT)은 여러 카메라 뷰에서 자연어 지시를 통해 지정된 다수의 객체를 전역적으로 일관된 ID로 추적하는 것을 목표로 합니다. 최근의 발전에도 불구하고, 기존 방법들은 프레임 단위의 공간 정보 주석 및 교차 뷰 ID 감독 학습에 크게 의존합니다. 이러한 의존성을 줄이기 위해, 우리는 기초 모델의 활용을 통해 약지도 학습 기반의 CRMOT을 탐구합니다. 그러나 우리의 실험 결과에 따르면, SAM2 및 SAM3과 같은 기초 모델을 직접 사용하거나, 특정 작업에 맞게 수정하더라도, 참조 표현을 정확하게 이해하고 뷰 간 일관된 ID를 유지하는 데 실패합니다. 하지만, 이들은 신뢰성 있는 객체 추적 정보를 생성하는 데 효과적이며, 이는 준지도 학습으로 활용될 수 있습니다. 따라서, 우리는 기초 모델을 준-레이블 생성기로 재활용하고, 객체 카테고리 레이블만을 사용하여 대략적인 감독 학습을 수행하는 두 단계 프레임워크를 제안합니다. 첫 번째 단계에서는, SAM3이 생성한 추적 정보를 뷰 간 연관성을 고려하여 정제하고 연결하는 Affinity-guided Cross-view Re-prompting 전략을 설계하여, 이후 학습을 위한 신뢰성 있는 교차 뷰 준-레이블을 생성합니다. 두 번째 단계에서는, SAM2를 기반으로 구축된 CRMOT 모델인 ViewSAM을 소개합니다. ViewSAM은 뷰 정보를 명시적으로 모델링하여 뷰에 따른 시각적 변화와 뷰에 독립적인 텍스트 표현 사이의 간극을 해소하며, 약 10% 추가적인 파라미터만 사용하여 강력한 교차 뷰 참조 추적을 가능하게 합니다. 광범위한 실험 결과는 ViewSAM이 약지도 학습 환경에서 최첨단 성능을 달성하며, 완전 감독 학습 방법과 경쟁력 있는 성능을 유지한다는 것을 보여줍니다.
Cross-view Referring Multi-Object Tracking (CRMOT) aims to track multiple objects specified by natural language across multiple camera views, with globally consistent identities. Despite recent progress, existing methods rely heavily on costly frame-level spatial annotations and cross-view identity supervision. To reduce such reliance, we explore CRMOT under weak supervision by leveraging the capabilities of foundation models. However, our empirical study shows that directly applying foundation models such as SAM2 and SAM3, even with task-specific modifications, fails to accurately understand referring expressions and maintain consistent identities across views. Yet, they remain effective at producing reliable object tracklets that can serve as pseudo supervision. We therefore repurpose foundation models as pseudo-label generators and propose a two-stage framework for weakly supervised CRMOT, using only object category labels as coarse-grained supervision. In the first stage, we design an Affinity-guided Cross-view Re-prompting strategy to refine and associate SAM3-generated tracklets across cameras, producing reliable cross-view pseudo labels for subsequent training. In the second stage, we introduce ViewSAM, a CRMOT model built upon SAM2 that explicitly models view-aware cross-modal semantics. By formulating view-induced variations as learnable conditions, ViewSAM bridges the gap between view-variant visual observations and view-invariant textual expressions, enabling robust cross-view referring tracking with only approximately 10% additional parameters. Extensive experiments demonstrate that ViewSAM achieves SOTA performance under weak supervision and remains competitive with fully supervised methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.