2604.22885v1 Apr 24, 2026 cs.CV

시맨틱 라우팅 및 어댑터 개인화를 통한 누락된 모달리티를 가진 연합 교차 모달 검색

Federated Cross-Modal Retrieval with Missing Modalities via Semantic Routing and Adapter Personalization

Hefeng Zhou
Hefeng Zhou
Citations: 8
h-index: 2
Sicheng Chen
Sicheng Chen
Citations: 33
h-index: 4
Xuan Liu
Xuan Liu
Citations: 2
h-index: 1
Wutong Zhang
Wutong Zhang
Citations: 75
h-index: 4
Wu Yan
Wu Yan
Citations: 0
h-index: 0
Jiong Lou
Jiong Lou
Citations: 436
h-index: 12
Chentao Wu
Chentao Wu
Citations: 139
h-index: 5
Guangtao Xue
Guangtao Xue
Citations: 4
h-index: 2
Wei Zhao
Wei Zhao
Citations: 9
h-index: 2
Jie Li
Jie Li
Citations: 17
h-index: 2

연합 교차 모달 검색은 이질적인 클라이언트 데이터, 특히 비-IID 시맨틱 분포와 누락된 모달리티로 인해 심각한 어려움을 겪습니다. 이러한 이질성 하에서, 단일의 글로벌 모델은 공유되는 교차 모달 지식과 클라이언트별 특징을 모두 포착하기에 종종 부족합니다. 본 논문에서는 프로토타입 앵커링, 검색 중심 시맨틱 라우팅, 그리고 선택적 클라이언트별 어댑터를 통합하는 개인화 친화적인 연합 프레임워크인 RCSR을 제안합니다. RCSR은 동결된 CLIP 백본을 기반으로 하며, 경량의 공유 어댑터를 활용하여 글로벌 지식 전달을 가능하게 하면서 효율적인 로컬 개인화를 지원합니다. 프로토타입 앵커링은 단일 모달 클라이언트가 글로벌 교차 모달 시맨틱과 정렬하도록 돕고, 서버 측 시맨틱 라우터는 검색 일관성을 기반으로 집계 가중치를 적응적으로 할당하여 이질적인 업데이트 과정에서 발생하는 정렬 드리프트를 완화합니다. MS-COCO, Flickr30K 및 기타 벤치마크에 대한 광범위한 실험 결과, RCSR은 글로벌 검색 정확도와 학습 안정성을 지속적으로 향상시키며, 특히 불완전한 모달리티를 가진 클라이언트의 검색 성능을 더욱 향상시키는 것을 보여줍니다. 코드 및 관련 자료는 다음 링크에서 확인할 수 있습니다: https://github.com/RezinChow/RCSR-Retrieval-Centric-Semantic-Routing.

Original Abstract

Federated cross-modal retrieval faces severe challenges from heterogeneous client data, particularly non-IID semantic distributions and missing modalities. Under such heterogeneity, a single global model is often insufficient to capture both shared cross-modal knowledge and client-specific characteristics. We propose RCSR, a personalization-friendly federated framework that integrates prototype anchoring, retrieval-centric semantic routing, and optional client-specific adapters. Built on a frozen CLIP backbone, RCSR leverages lightweight shared adapters for global knowledge transfer while supporting efficient local personalization. Prototype anchoring helps unimodal clients align with global cross-modal semantics, and a server-side semantic router adaptively assigns aggregation weights based on retrieval consistency to mitigate alignment drift during heterogeneous updates. Extensive experiments on MS-COCO, Flickr30K, and other benchmarks show that RCSR consistently improves global retrieval accuracy and training stability, while further enhancing client-level retrieval performance, especially for clients with incomplete modalities. Code is available at https://github.com/RezinChow/RCSR-Retrieval-Centric-Semantic-Routing.

0 Citations
0 Influential
26 Altmetric
130.0 Score
Original PDF
0

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!