CREAM: 적응형 소프트 메모리를 활용한 동적 스트리밍 데이터 코퍼스에 대한 지속적인 검색
CREAM: Continual Retrieval on Dynamic Streaming Corpora with Adaptive Soft Memory
동적 데이터 스트림에서의 정보 검색(IR)은 AI 기반 IR 시스템의 성능 저하를 야기하는 데이터 분포의 변화 때문에 매우 중요한 과제입니다. 이러한 문제를 완화하기 위해, 메모리 기반의 지속적 학습이 IR에 널리 활용되어 왔습니다. 그러나 기존 방법들은 정해진 쿼리 집합과 정답 문서를 사용하며, 이는 새로운 데이터에 대한 일반화 능력을 제한하여 실제 응용 분야에서 비현실적인 단점이 있습니다. 본 논문에서는 정답 레이블 없이 새로운 코퍼스의 미지의 주제에 대한 효과적인 학습을 가능하게 하기 위해, 메모리 기반 지속 검색을 위한 자기 지도 학습 프레임워크인 CREAM을 제안합니다. CREAM은 스트리밍 쿼리와 문서의 진화하는 의미를 동적으로 구조화된 소프트 메모리에 저장하고, 이를 활용하여 지도 학습 없이 기존 및 새로운 주제에 모두 적응합니다. 이는 세 가지 핵심 기술을 통해 구현됩니다. 세 가지 기술은 다음과 같습니다: 세분화된 유사성 추정, 정규화된 클러스터 프로토타이핑, 계층화된 코어셋 샘플링. 두 개의 벤치마크 데이터 세트에 대한 실험 결과, CREAM은 뛰어난 적응성과 검색 정확도를 보여주며, 레이블이 없는 환경에서 가장 강력한 방법보다 Success@5에서 평균 27.79%, Recall@10에서 평균 44.5% 더 높은 성능을 보입니다. 또한, 지도 학습 방법과 동등하거나 더 높은 성능을 달성했습니다.
Information retrieval (IR) in dynamic data streams is a crucial task, as shifts in data distribution degrade the performance of AI-powered IR systems. To mitigate this issue, memory-based continual learning has been widely adopted for IR. However, existing methods rely on a fixed set of queries with ground-truth documents, which limits generalization to unseen data, making them impractical for real-world applications. To enable more effective learning with unseen topics of a new corpus without ground-truth labels, we propose CREAM, a self-supervised framework for memory-based continual retrieval. CREAM captures the evolving semantics of streaming queries and documents into dynamically structured soft memory and leverages it to adapt to both seen and unseen topics in an unsupervised setting. We realize this through three key techniques: fine-grained similarity estimation, regularized cluster prototyping, and stratified coreset sampling. Experiments on two benchmark datasets demonstrate that CREAM exhibits superior adaptability and retrieval accuracy, outperforming the strongest method in a label-free setting by 27.79% in Success@5 and 44.5% in Recall@10 on average, and achieving performance comparable to or even exceeding that of supervised methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.