pFedNavi: 구조 인식 기반의 개인 맞춤형 연합 학습 비전-언어 내비게이션 - 임베디드 AI를 위한 프레임워크
pFedNavi: Structure-Aware Personalized Federated Vision-Language Navigation for Embodied AI
비전-언어 내비게이션(VLN)은 사적인 실내 환경에서 얻은 대규모 경로 지시 데이터가 필요하며, 이는 심각한 개인 정보 보호 문제를 야기합니다. 연합 학습(FL)은 데이터를 장치에 보관하여 이러한 문제를 완화하지만, 기존의 연합 학습 방식은 환경 및 지시 스타일의 극심한 클라이언트 간 이질성으로 인해 VLN에 적용하기 어렵고, 단일의 전역 모델로는 최적의 성능을 얻기 어렵습니다. 본 논문에서는 VLN에 특화된 구조 인식 기반의 동적 적응형 개인 맞춤형 연합 학습 프레임워크인 pFedNavi를 제안합니다. 핵심 아이디어는 중요한 부분에 개인 맞춤화를 적용하는 것입니다. pFedNavi는 계층별 혼합 계수를 사용하여 클라이언트별 레이어를 적응적으로 식별하고, 선택된 구성 요소(예: 인코더-디코더 투영 및 환경에 민감한 디코더 레이어)에 대한 미세 조정된 파라미터 융합을 수행하여 전역 지식 공유와 로컬 특수화를 균형 있게 조절합니다. 우리는 ResNet 및 CLIP 시각적 표현을 사용하여 R2R 및 RxR이라는 두 가지 표준 VLN 벤치마크에서 pFedNavi를 평가했습니다. 모든 지표에서 pFedNavi는 FedAvg 기반의 VLN 기준 모델보다 일관되게 우수한 성능을 보였으며, 내비게이션 성공률이 최대 7.5% 향상되고, 경로 정확도가 최대 7.8% 향상되었으며, 비-IID 조건에서 1.38배 더 빠르게 수렴했습니다.
Vision-Language Navigation VLN requires large-scale trajectory instruction data from private indoor environments, raising significant privacy concerns. Federated Learning FL mitigates this by keeping data on-device, but vanilla FL struggles under VLNs' extreme cross-client heterogeneity in environments and instruction styles, making a single global model suboptimal. This paper proposes pFedNavi, a structure-aware and dynamically adaptive personalized federated learning framework tailored for VLN. Our key idea is to personalize where it matters: pFedNavi adaptively identifies client-specific layers via layer-wise mixing coefficients, and performs fine-grained parameter fusion on the selected components (e.g., the encoder-decoder projection and environment-sensitive decoder layers) to balance global knowledge sharing with local specialization. We evaluate pFedNavi on two standard VLN benchmarks, R2R and RxR, using both ResNet and CLIP visual representations. Across all metrics, pFedNavi consistently outperforms the FedAvg-based VLN baseline, achieving up to 7.5% improvement in navigation success rate and up to 7.8% gain in trajectory fidelity, while converging 1.38x faster under non-IID conditions.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.