상호보완적 정보 추출 및 정렬을 통한 멀티모달 검색 성능 향상
Enhancing Multimodal Retrieval via Complementary Information Extraction and Alignment
최근 몇 년간 멀티모달 검색은 유망하지만 도전적인 연구 분야로 부상했습니다. 기존의 멀티모달 검색 연구 대부분은 짝을 이루는 텍스트와 유사한 멀티모달 데이터 내의 정보를 포착하는 데 집중한 반면, 멀티모달 데이터에 포함된 상호보완적 정보는 종종 간과해 왔습니다. 본 연구에서는 문서 내 텍스트와 이미지를 통합된 잠재 공간으로 변환하고, 이미지 표현의 차이를 식별 및 보존하도록 설계된 상호보완적 정보 추출기를 특징으로 하는 새로운 멀티모달 검색 접근 방식인 CIEA(Complementary Information Extraction and Alignment)를 제안합니다. 우리는 의미적 무결성을 보장하고 이미지에 포함된 상호보완적 정보를 효과적으로 포착하기 위해 두 가지 상호보완적 대조 손실(contrastive losses)을 사용하여 CIEA를 최적화합니다. 광범위한 실험을 통해 CIEA의 유효성을 입증하였으며, 이는 분할 정복(divide-and-conquer) 모델과 범용 밀집 검색(universal dense retrieval) 모델 모두에서 상당한 성능 향상을 달성했습니다. 또한 소거 연구(ablation study), 추가 논의 및 사례 연구를 통해 CIEA가 이룬 기술적 진보를 강조합니다. 학계의 후속 연구를 장려하기 위해 소스 코드를 https://github.com/zengdlong/CIEA 에 공개했습니다.
Multimodal retrieval has emerged as a promising yet challenging research direction in recent years. Most existing studies in multimodal retrieval focus on capturing information in multimodal data that is similar to their paired texts, but often ignores the complementary information contained in multimodal data. In this study, we propose CIEA, a novel multimodal retrieval approach that employs Complementary Information Extraction and Alignment, which transforms both text and images in documents into a unified latent space and features a complementary information extractor designed to identify and preserve differences in the image representations. We optimize CIEA using two complementary contrastive losses to ensure semantic integrity and effectively capture the complementary information contained in images. Extensive experiments demonstrate the effectiveness of CIEA, which achieves significant improvements over both divide-and-conquer models and universal dense retrieval models. We provide an ablation study, further discussions, and case studies to highlight the advancements achieved by CIEA. To promote further research in the community, we have released the source code at https://github.com/zengdlong/CIEA.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.