스케치와 텍스트의 시너지: 정밀한 이미지 검색을 위한 구조적 윤곽선과 설명적 속성 결합
Sketch and Text Synergy: Fusing Structural Contours and Descriptive Attributes for Fine-Grained Image Retrieval
손으로 그린 스케치 또는 텍스트 설명을 이용한 정밀한 이미지 검색은 고유한 모달리티 간의 간극으로 인해 여전히 중요한 과제입니다. 손으로 그린 스케치는 복잡한 구조적 윤곽선을 표현하지만 색상과 질감이 부족하며, 텍스트는 이러한 정보를 효과적으로 제공하지만 공간적 윤곽선은 생략합니다. 이러한 상호 보완적인 특성에 따라, 저희는 스케치 및 텍스트 기반 이미지 검색(STBIR) 프레임워크를 제안합니다. STBIR은 텍스트에서 얻은 풍부한 색상 및 질감 정보를 스케치가 제공하는 구조적 윤곽선과 결합하여 우수한 정밀 검색 성능을 달성합니다. 첫째, 다양한 품질의 쿼리에 대한 모델의 강건성을 향상시키는 커리큘럼 학습 기반의 강화 모듈을 제안합니다. 둘째, 범주 지식을 기반으로 한 특징 공간 최적화 모듈을 도입하여 모델의 표현력을 크게 향상시킵니다. 마지막으로, 다단계 교차 모달 특징 정렬 메커니즘을 설계하여 교차 모달 특징 정렬의 어려움을 효과적으로 완화합니다. 또한, 제안된 프레임워크의 효과를 엄격하게 검증하고 후속 관련 연구를 위한 데이터 지원을 제공하기 위해 정밀한 STBIR 벤치마크 데이터셋을 구축했습니다. 광범위한 실험 결과, 제안된 STBIR 프레임워크가 최첨단 방법보다 훨씬 우수한 성능을 보이는 것으로 나타났습니다.
Fine-grained image retrieval via hand-drawn sketches or textual descriptions remains a critical challenge due to inherent modality gaps. While hand-drawn sketches capture complex structural contours, they lack color and texture, which text effectively provides despite omitting spatial contours. Motivated by the complementary nature of these modalities, we propose the Sketch and Text Based Image Retrieval (STBIR) framework. By synergizing the rich color and texture cues from text with the structural outlines provided by sketches, STBIR achieves superior fine-grained retrieval performance. First, a curriculum learning driven robustness enhancement module is proposed to enhance the model's robustness when handling queries of varying quality. Second, we introduce a category-knowledge-based feature space optimization module, thereby significantly boosting the model's representational power. Finally, we design a multi-stage cross-modal feature alignment mechanism to effectively mitigate the challenges of cross modal feature alignment. Furthermore, we curate the fine-grained STBIR benchmark dataset to rigorously validate the efficacy of our proposed framework and to provide data support as a reference for subsequent related research. Extensive experiments demonstrate that the proposed STBIR framework significantly outperforms state of the art methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.