UnIte: 불확실성 기반 반복 문서 샘플링을 이용한 정보 검색에서의 도메인 적응
UnIte: Uncertainty-based Iterative Document Sampling for Domain Adaptation in Information Retrieval
UnIte는 신경망 기반 정보 검색 시스템을 새로운 도메인으로 일반화하기 위해, 대상 도메인 문서에 대한 가짜 쿼리를 생성하는 방법을 제시합니다. 이러한 적응의 품질과 효율성은 어떤 문서가 가짜 쿼리 생성에 사용되는지에 크게 의존합니다. 기존의 문서 샘플링 방법은 다양성을 강조하지만, 모델의 불확실성을 고려하지 못합니다. 이에 반해, 우리는 모델의 학습 효율성을 극대화하기 위해 (1) 높은 확률적 불확실성을 가진 문서들을 필터링하고 (2) 높은 인지적 불확실성을 가진 문서들을 우선적으로 선택하는 **Un**certainty-based **Ite**rative Document Sampling (UnIte) 방법을 제안합니다. 우리는 BEIR 데이터셋에 대한 광범위한 실험을 통해, 작은 모델과 큰 모델 모두에서 평균적으로 4k의 작은 학습 데이터 크기로 각각 +2.45 및 +3.49의 nDCG@10 성능 향상을 보였습니다.
Unsupervised domain adaptation generalizes neural retrievers to an unseen domain by generating pseudo queries on target domain documents. The quality and efficiency of this adaptation critically depend on which documents are selected for pseudo query generation. The existing document sampling method focuses on diversity but fails to capture model uncertainty. In contrast, we propose **Un**certainty-based **Ite**rative Document Sampling (UnIte) addressing these limitations by (1) filtering documents with high aleatoric uncertainty and (2) prioritizing those with high epistemic uncertainty, maximizing the learning utility of the current model. We conducted extensive experiments on a large corpus of BEIR with small and large models, showing significant gains of +2.45 and +3.49 nDCG@10 with a smaller training sample size, 4k on average.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.