타이그나리 v2: 앙상블 전문가 모델과 약지도 학습을 활용한 다중 모드 식물 분포 예측에서 레이블 노이즈 및 분포 변화 완화
Tighnari v2: Mitigating Label Noise and Distribution Shift in Multimodal Plant Distribution Prediction via Mixture of Experts and Weakly Supervised Learning
대규모, 종을 초월하는 식물 분포 예측은 생물 다양성 보존에 중요한 역할을 하지만, 관측 데이터의 희소성과 편향으로 인해 이 분야의 모델링 노력은 여전히 상당한 어려움에 직면하고 있습니다. 존재-부재(PA) 데이터는 정확하고 노이즈가 없는 레이블을 제공하지만, 획득 비용이 높고 양이 제한적입니다. 반면, 존재-만(PO) 데이터는 넓은 공간적 범위를 제공하고 풍부한 시공간적 분포 정보를 제공하지만, 부정 샘플에서 심각한 레이블 노이즈를 포함합니다. 이러한 실제 제약을 해결하기 위해, 본 논문에서는 PA 및 PO 데이터의 장점을 최대한 활용하는 다중 모드 융합 프레임워크를 제안합니다. 우리는 위성 이미지의 지리적 범위를 기반으로 PO 데이터에 대한 혁신적인 가짜 레이블 집계 전략을 도입하여, 레이블 공간과 원격 감지 특징 공간 간의 지리적 정렬을 가능하게 합니다. 모델 아키텍처 측면에서, 우리는 위성 이미지의 백본으로 Swin Transformer Base를 사용하고, 표 형식 특징 추출을 위해 TabM 네트워크를 사용하며, 시계열 모델링을 위해 Temporal Swin Transformer를 사용하고, 이질적인 모달리티의 융합을 최적화하기 위해 스태킹 가능한 시리얼 삼중 모드 어텐션 메커니즘을 채택합니다. 또한, 실증적 분석 결과, PA 학습 및 테스트 샘플 간에 상당한 지리적 분포 변화가 발생하는 것을 확인했으며, PO 및 PA 데이터를 직접 혼합하여 학습된 모델은 PO 데이터의 레이블 노이즈로 인해 성능 저하를 겪는 경향이 있습니다. 이를 해결하기 위해, 우리는 앙상블 전문가 모델 패러다임을 활용합니다. 테스트 샘플은 PA 샘플과의 공간적 근접성을 기준으로 파티션으로 나뉘며, 각 파티션 내에서 서로 다른 데이터셋으로 학습된 모델을 사용하여 추론 및 후처리를 수행합니다. GeoLifeCLEF 2025 데이터셋에 대한 실험 결과, PA 데이터의 제한적인 범위와 뚜렷한 분포 변화가 있는 시나리오에서 본 연구의 접근 방식이 우수한 예측 성능을 달성하는 것을 보여줍니다.
Large-scale, cross-species plant distribution prediction plays a crucial role in biodiversity conservation, yet modeling efforts in this area still face significant challenges due to the sparsity and bias of observational data. Presence-Absence (PA) data provide accurate and noise-free labels, but are costly to obtain and limited in quantity; Presence-Only (PO) data, by contrast, offer broad spatial coverage and rich spatiotemporal distribution, but suffer from severe label noise in negative samples. To address these real-world constraints, this paper proposes a multimodal fusion framework that fully leverages the strengths of both PA and PO data. We introduce an innovative pseudo-label aggregation strategy for PO data based on the geographic coverage of satellite imagery, enabling geographic alignment between the label space and remote sensing feature space. In terms of model architecture, we adopt Swin Transformer Base as the backbone for satellite imagery, utilize the TabM network for tabular feature extraction, retain the Temporal Swin Transformer for time-series modeling, and employ a stackable serial tri-modal cross-attention mechanism to optimize the fusion of heterogeneous modalities. Furthermore, empirical analysis reveals significant geographic distribution shifts between PA training and test samples, and models trained by directly mixing PO and PA data tend to experience performance degradation due to label noise in PO data. To address this, we draw on the mixture-of-experts paradigm: test samples are partitioned according to their spatial proximity to PA samples, and different models trained on distinct datasets are used for inference and post-processing within each partition. Experiments on the GeoLifeCLEF 2025 dataset demonstrate that our approach achieves superior predictive performance in scenarios with limited PA coverage and pronounced distribution shifts.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.