FedBPrompt: 신체 분포 인지 시각적 프롬프트를 활용한 연합 도메인 일반화 기반 사람 재식별
FedBPrompt: Federated Domain Generalization Person Re-Identification via Body Distribution Aware Visual Prompts
본 논문에서는 연합 환경에서의 도메인 일반화(Federated Domain Generalization)를 통해 사람 재식별(Person Re-Identification) 성능을 향상시키는 방법, 즉 FedDG-ReID를 제안합니다. 기존의 비전 트랜스포머(ViT)는 전역적 주의(global attention) 메커니즘으로 인해 유사한 배경이나 다양한 시점에서 보이는 보행자를 구별하는 데 어려움을 겪으며, 특히 연합 학습 환경에서의 클라이언트 간 데이터 분포 변화로 인해 이러한 문제는 더욱 심화됩니다. 이러한 문제를 해결하기 위해, 본 논문에서는 학습 가능한 시각적 프롬프트를 도입하여 트랜스포머의 주의를 보행자 중심 영역으로 유도하는 Federated Body Distribution Aware Visual Prompt (FedBPrompt)를 제안합니다. FedBPrompt는 다음과 같은 메커니즘(BAPM)을 포함합니다: 전체 신체 프롬프트를 사용하여 클라이언트 간 배경 노이즈를 억제하고, 신체 부위 정렬 프롬프트를 사용하여 자세 및 시점 변화에 강건한 미세한 특징을 캡처합니다. 또한, 통신 비용을 줄이기 위해 ViT의 핵심 부분을 고정하고 가벼운 프롬프트만 업데이트하는 프롬프트 기반 미세 조정 전략(PFTS)을 설계하여 통신 오버헤드를 크게 줄이면서도 적응성을 유지합니다. 광범위한 실험 결과, BAPM은 특징 분별력과 교차 도메인 일반화를 효과적으로 향상시키며, PFTS는 몇 번의 집계 라운드만에 상당한 성능 향상을 달성함을 보여줍니다. 또한, BAPM과 PFTS는 기존의 ViT 기반 FedDG-ReID 프레임워크에 쉽게 통합될 수 있어, FedBPrompt는 연합 사람 재식별을 위한 유연하고 효과적인 솔루션입니다. 관련 코드는 https://github.com/leavlong/FedBPrompt 에서 확인할 수 있습니다.
Federated Domain Generalization for Person Re-Identification (FedDG-ReID) learns domain-invariant representations from decentralized data. While Vision Transformer (ViT) is widely adopted, its global attention often fails to distinguish pedestrians from high similarity backgrounds or diverse viewpoints -- a challenge amplified by cross-client distribution shifts in FedDG-ReID. To address this, we propose Federated Body Distribution Aware Visual Prompt (FedBPrompt), introducing learnable visual prompts to guide Transformer attention toward pedestrian-centric regions. FedBPrompt employs a Body Distribution Aware Visual Prompts Mechanism (BAPM) comprising: Holistic Full Body Prompts to suppress cross-client background noise, and Body Part Alignment Prompts to capture fine-grained details robust to pose and viewpoint variations. To mitigate high communication costs, we design a Prompt-based Fine-Tuning Strategy (PFTS) that freezes the ViT backbone and updates only lightweight prompts, significantly reducing communication overhead while maintaining adaptability. Extensive experiments demonstrate that BAPM effectively enhances feature discrimination and cross-domain generalization, while PFTS achieves notable performance gains within only a few aggregation rounds. Moreover, both BAPM and PFTS can be easily integrated into existing ViT-based FedDG-ReID frameworks, making FedBPrompt a flexible and effective solution for federated person re-identification. The code is available at https://github.com/leavlong/FedBPrompt.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.