2601.03728v1 Jan 07, 2026 cs.CV

CSMCIR: 추론 강화된 대칭적 정렬 및 메모리 뱅크를 활용한 복합 이미지 검색

CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval

Zhipeng Qian
Zhipeng Qian
Citations: 62
h-index: 4
Zihan Liang
Zihan Liang
Citations: 41
h-index: 4
Yufei Ma
Yufei Ma
Citations: 77
h-index: 5
Ben Chen
Ben Chen
Citations: 39
h-index: 4
Huangyu Dai
Huangyu Dai
Citations: 52
h-index: 4
Yiwei Ma
Yiwei Ma
Citations: 1,066
h-index: 14
Jiayi Ji
Jiayi Ji
Citations: 809
h-index: 15
Chenyi Lei
Chenyi Lei
Citations: 134
h-index: 5
Han Li
Han Li
Citations: 40
h-index: 4
Xiaoshuai Sun
Xiaoshuai Sun
Citations: 1,038
h-index: 19

복합 이미지 검색(CIR)은 사용자가 참조 이미지와 조작 텍스트를 모두 사용하여 대상 이미지를 검색할 수 있도록 하여, 단일 모달 검색 시스템에 비해 상당한 이점을 제공합니다. 그러나 기존의 CIR 방법은 표현 공간의 단편화 문제를 겪습니다. 쿼리와 대상은 이질적인 모달성을 가지며, 각각의 인코더에 의해 처리되므로, 모델은 사후 정렬을 통해서만 불일치하는 표현 공간을 연결해야 합니다. 이러한 아키텍처적 비대칭성은 특징 공간에서 세 개의 뚜렷하게 분리된 클러스터로 나타나며, 이는 이질적인 모달성이 초기 단계부터 근본적으로 불일치하는 표현 공간을 생성한다는 것을 직접적으로 보여줍니다. 본 연구에서는 세 가지 시너지 효과를 통해 효율적인 쿼리-대상 정렬을 달성하는 통합 표현 프레임워크인 CSMCIR을 제안합니다. 첫째, 다단계 추론(MCoT) 프롬프팅 전략을 도입하여, 멀티모달 대규모 언어 모델이 대상 이미지에 대한 구별력 있고 의미적으로 일관된 설명을 생성하도록 유도하여 모달적 대칭성을 확립합니다. 둘째, 쿼리와 대상 측면 모두에서 동일한 공유 파라미터 Q-Former를 사용하여 교차 모달 인코딩을 수행하는 대칭적 듀얼 타워 아키텍처를 설계하여 일관된 특징 표현을 보장하고 정렬 간극을 더욱 줄입니다. 마지막으로, 이러한 아키텍처적 대칭성은 엔트로피 기반의 시간적으로 동적인 메모리 뱅크 전략을 가능하게 하여 고품질의 부정 샘플을 제공하면서 동시에 모델 상태의 변화에 대한 일관성을 유지합니다. 네 개의 벤치마크 데이터 세트에 대한 광범위한 실험 결과, CSMCIR은 최첨단 성능을 달성하며 우수한 학습 효율성을 제공하는 것으로 나타났습니다. 종합적인 분석 연구를 통해 제안된 각 구성 요소의 효과성을 검증했습니다.

Original Abstract

Composed Image Retrieval (CIR) enables users to search for target images using both a reference image and manipulation text, offering substantial advantages over single-modality retrieval systems. However, existing CIR methods suffer from representation space fragmentation: queries and targets comprise heterogeneous modalities and are processed by distinct encoders, forcing models to bridge misaligned representation spaces only through post-hoc alignment, which fundamentally limits retrieval performance. This architectural asymmetry manifests as three distinct, well-separated clusters in the feature space, directly demonstrating how heterogeneous modalities create fundamentally misaligned representation spaces from initialization. In this work, we propose CSMCIR, a unified representation framework that achieves efficient query-target alignment through three synergistic components. First, we introduce a Multi-level Chain-of-Thought (MCoT) prompting strategy that guides Multimodal Large Language Models to generate discriminative, semantically compatible captions for target images, establishing modal symmetry. Building upon this, we design a symmetric dual-tower architecture where both query and target sides utilize the identical shared-parameter Q-Former for cross-modal encoding, ensuring consistent feature representations and further reducing the alignment gap. Finally, this architectural symmetry enables an entropy-based, temporally dynamic Memory Bank strategy that provides high-quality negative samples while maintaining consistency with the evolving model state. Extensive experiments on four benchmark datasets demonstrate that our CSMCIR achieves state-of-the-art performance with superior training efficiency. Comprehensive ablation studies further validate the effectiveness of each proposed component.

0 Citations
0 Influential
9.5 Altmetric
47.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!