2603.05114v1 Mar 05, 2026 cs.CV

UniPAR: 보행자 속성 인식의 통합 프레임워크

UniPAR: A Unified Framework for Pedestrian Attribute Recognition

Minghe Xu
Minghe Xu
Citations: 2
h-index: 1
Rouying Wu
Rouying Wu
Citations: 2
h-index: 1
Jiarui Xu
Jiarui Xu
Citations: 368
h-index: 5
Zikang Yan
Zikang Yan
Citations: 2
h-index: 1
Chiawei Chu
Chiawei Chu
Citations: 6
h-index: 1
Min Sun
Min Sun
Citations: 12
h-index: 1
Xiao Wang
Xiao Wang
Citations: 1
h-index: 1
Yu Li
Yu Li
Citations: 0
h-index: 0

보행자 속성 인식은 영상 감시 시스템의 사람 검색 및 지능형 소매 분석과 같은 다양한 응용 분야에 필수적인 기반 기술입니다. 그러나 기존 연구는 종종 '데이터셋 당 하나의 모델'이라는 패러다임에 의해 제약되며, 다양한 도메인 간의 모달리티, 속성 정의, 환경 시나리오의 상당한 차이를 처리하는 데 어려움을 겪습니다. 이러한 문제점을 해결하기 위해, 우리는 보행자 속성 인식(PAR)을 위한 통합 트랜스포머 기반 프레임워크인 UniPAR를 제안합니다. UniPAR는 통합된 데이터 스케줄링 전략과 동적 분류 헤드를 통합하여, RGB 이미지, 비디오 시퀀스, 이벤트 스트림과 같은 다양한 모달리티의 데이터셋을 단일 모델로 동시에 처리할 수 있도록 합니다. 또한, 우리는 시각적 특징과 텍스트 기반 속성 쿼리를 후반 단계의 심층 융합 전략을 통해 명시적으로 정렬하는 혁신적인 단계별 융합 인코더를 도입했습니다. 널리 사용되는 벤치마크 데이터셋인 MSP60K, DukeMTMC, EventPAR에 대한 실험 결과는 UniPAR가 특수화된 최첨단 방법과 비교 가능한 성능을 달성함을 보여줍니다. 더욱이, 다중 데이터셋을 이용한 공동 훈련은 모델의 교차 도메인 일반화 능력을 향상시키고, 저조도 및 모션 블러와 같은 극한 환경에서의 인식 강건성을 크게 향상시킵니다. 본 논문의 소스 코드는 https://github.com/Event-AHU/OpenPAR 에서 공개될 예정입니다.

Original Abstract

Pedestrian Attribute Recognition is a foundational computer vision task that provides essential support for downstream applications, including person retrieval in video surveillance and intelligent retail analytics. However, existing research is frequently constrained by the ``one-model-per-dataset" paradigm and struggles to handle significant discrepancies across domains in terms of modalities, attribute definitions, and environmental scenarios. To address these challenges, we propose UniPAR, a unified Transformer-based framework for PAR. By incorporating a unified data scheduling strategy and a dynamic classification head, UniPAR enables a single model to simultaneously process diverse datasets from heterogeneous modalities, including RGB images, video sequences, and event streams. We also introduce an innovative phased fusion encoder that explicitly aligns visual features with textual attribute queries through a late deep fusion strategy. Experimental results on the widely used benchmark datasets, including MSP60K, DukeMTMC, and EventPAR, demonstrate that UniPAR achieves performance comparable to specialized SOTA methods. Furthermore, multi-dataset joint training significantly enhances the model's cross-domain generalization and recognition robustness in extreme environments characterized by low light and motion blur. The source code of this paper will be released on https://github.com/Event-AHU/OpenPAR

0 Citations
0 Influential
48.547430764207 Altmetric
242.7 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!