FSMC-Pose: 다중 스케일 자가 보정을 이용한 주파수 및 공간 융합을 통한 소의 교배 자세 추정
FSMC-Pose: Frequency and Spatial Fusion with Multiscale Self-calibration for Cattle Mounting Pose Estimation
교배 자세는 낙농 소의 발정 상태를 나타내는 중요한 시각적 지표입니다. 그러나 복잡한 배경과 소들 간의 가려짐 현상으로 인해 실제 환경에서 신뢰성 있는 교배 자세 추정은 여전히 어려운 과제입니다. 본 논문에서는 가벼운 주파수-공간 융합 기반 모델인 CattleMountNet과 다중 스케일 자가 보정 모듈인 SC2Head를 통합한 상위 수준 프레임워크인 FSMC-Pose를 제시합니다. 특히, CattleMountNet의 성능 향상을 위해 Spatial Frequency Enhancement Block (SFEBlock)과 Receptive Aggregation Block (RABlock)이라는 두 가지 알고리즘 구성 요소를 설계했습니다. SFEBlock은 소를 복잡한 배경으로부터 분리하고, RABlock은 다중 스케일의 문맥 정보를 캡처합니다. Spatial-Channel Self-Calibration Head (SC2Head)는 공간적 및 채널 간의 의존성을 고려하고, 소들 간의 겹침 현상으로 인한 구조적 불일치를 완화하기 위한 자가 보정 브랜치를 도입합니다. 또한, 1176개의 교배 사례를 포함하는 MOUNT-Cattle 데이터셋을 구축했으며, 이는 COCO 형식에 따르며 다양한 자세 추정 모델에 적용할 수 있도록 설계되었습니다. MOUNT-Cattle 데이터셋과 공개된 NWAFU-Cattle 데이터셋을 결합한 광범위한 데이터셋을 사용하여 FSMC-Pose는 기존의 강력한 모델보다 높은 정확도를 달성했으며, 계산 및 파라미터 비용은 현저히 낮으면서 일반적인 GPU에서 실시간 추론이 가능합니다. 광범위한 실험과 질적 분석 결과, FSMC-Pose는 복잡하고 혼잡한 환경에서 소의 교배 자세를 효과적으로 캡처하고 추정할 수 있음을 보여줍니다. 데이터셋 및 코드는 https://github.com/elianafang/FSMC-Pose 에서 확인할 수 있습니다.
Mounting posture is an important visual indicator of estrus in dairy cattle. However, achieving reliable mounting pose estimation in real-world environments remains challenging due to cluttered backgrounds and frequent inter-animal occlusion. We present FSMC-Pose, a top-down framework that integrates a lightweight frequency-spatial fusion backbone, CattleMountNet, and a multiscale self-calibration head, SC2Head. Specifically, we design two algorithmic components for CattleMountNet: the Spatial Frequency Enhancement Block (SFEBlock) and the Receptive Aggregation Block (RABlock). SFEBlock separates cattle from cluttered backgrounds, while RABlock captures multiscale contextual information. The Spatial-Channel Self-Calibration Head (SC2Head) attends to spatial and channel dependencies and introduces a self-calibration branch to mitigate structural misalignment under inter-animal overlap. We construct a mounting dataset, MOUNT-Cattle, covering 1176 mounting instances, which follows the COCO format and supports drop-in training across pose estimation models. Using a comprehensive dataset that combines MOUNT-Cattle with the public NWAFU-Cattle dataset, FSMC-Pose achieves higher accuracy than strong baselines, with markedly lower computational and parameter costs, while maintaining real-time inference on commodity GPUs. Extensive experiments and qualitative analyses show that FSMC-Pose effectively captures and estimates cattle mounting pose in complex and cluttered environments. Dataset and code are available at https://github.com/elianafang/FSMC-Pose.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.