UDAPose: 저조도 환경에서의 인간 자세 추정을 위한 비지도 도메인 적응
UDAPose: Unsupervised Domain Adaptation for Low-Light Human Pose Estimation
저조도 환경과 같은 시야 확보가 어려운 환경은 레이블이 있는 저조도 데이터셋의 부족과 불량한 조명 조건에서의 시각 정보 손실로 인해 인간 자세 추정에 상당한 어려움을 야기합니다. 최근의 도메인 적응 기술은 일반적으로 잘 조명된 데이터를 활용하여 저조도 환경을 모방하는 이미지 증강 기법을 사용합니다. 그러나 수동으로 설계된 증강 기법은 노이즈 패턴을 지나치게 단순화하는 경향이 있으며, 학습 기반 방법은 종종 고주파 저조도 특성을 보존하지 못하여 비현실적인 이미지를 생성하고, 이는 자세 추정 모델이 실제 저조도 환경에 제대로 일반화되지 못하게 만듭니다. 또한, 최근의 자세 추정 모델은 이미지-키포인트 간의 교차 주의 메커니즘을 통해 이미지 정보를 활용하지만, 이러한 정보는 저조도 조건에서 신뢰성이 떨어집니다. 이러한 문제점을 해결하기 위해, 우리는 자세 추정을 위한 비지도 도메인 적응(UDAPose)이라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 저조도 이미지를 합성하고, 시각 정보와 자세 사전 정보를 동적으로 결합하여 자세 추정 성능을 향상시킵니다. 구체적으로, 우리의 합성 방법은 입력 저조도 이미지에서 고주파 세부 정보를 주입하기 위해 Direct-Current 기반 고역 통과 필터(DHF)와 저조도 특성 주입 모듈(LCIM)을 사용하며, 기존 방법의 경직성 또는 세부 정보 손실 문제를 해결합니다. 또한, 우리는 트랜스포머 아키텍처 내에서 이미지 정보와 학습된 자세 사전 정보를 적응적으로 균형을 맞추는 동적 주의 제어(DCA) 모듈을 도입했습니다. 실험 결과, UDAPose는 최첨단 방법보다 뛰어난 성능을 보이며, ExLPose-test 하드셋(LL-H)에서 10.1% (56.4%)의 AP 향상, EHPT-XC에서의 교차 데이터셋 검증에서 7.4% (31.4%)의 향상을 달성했습니다. 코드: https://github.com/Vision-and-Multimodal-Intelligence-Lab/UDAPose
Low-visibility scenarios, such as low-light conditions, pose significant challenges to human pose estimation due to the scarcity of annotated low-light datasets and the loss of visual information under poor illumination. Recent domain adaptation techniques attempt to utilize well-lit labels by augmenting well-lit images to mimic low-light conditions. But handcrafted augmentations oversimplify noise patterns, while learning-based methods often fail to preserve high-frequency low-light characteristics, producing unrealistic images that lead pose models to generalize poorly to real low-light scenes. Moreover, recent pose estimators rely on image cues through image-to-keypoint cross-attention, but these cues become unreliable under low-light conditions. To address these issues, we propose Unsupervised Domain Adaptation for Pose Estimation (UDAPose), a novel framework that synthesizes low-light images and dynamically fuses visual cues with pose priors for improved pose estimation. Specifically, our synthesis method incorporates a Direct-Current-based High-Pass Filter (DHF) and a Low-light Characteristics Injection Module (LCIM) to inject high-frequency details from input low-light images, overcoming rigidity or the detail loss in existing approaches. Furthermore, we introduce a Dynamic Control of Attention (DCA) module that adaptively balances image cues with learned pose priors in the Transformer architecture. Experiments show that UDAPose outperforms state-of-the-art methods, with notable AP gains of 10.1 (56.4%) on the ExLPose-test hard set (LL-H) and 7.4 (31.4%) in cross-dataset validation on EHPT-XC. Code: https://github.com/Vision-and-Multimodal-Intelligence-Lab/UDAPose
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.