LLM 관련성 점수를 활용한 가우시안 프로세스 기반 베이지안 능동 학습: 밀집 패시지 검색을 위한 방법
Bayesian Active Learning with Gaussian Processes Guided by LLM Relevance Scoring for Dense Passage Retrieval
대규모 언어 모델(LLM)은 뛰어난 제로샷 관련성 모델링 능력을 보여주지만, 높은 계산 비용으로 인해 패시지 검색을 예산 제약적인 전역 최적화 문제로 해결해야 합니다. 기존 방법은 초기 단계의 밀집 검색기를 수동적으로 활용하는데, 이는 다음과 같은 두 가지 한계를 초래합니다. (1) 의미적으로 구별되는 클러스터 내의 관련 패시지를 검색하지 못하고, (2) 관련성 신호를 전체 코퍼스로 확산시키지 못합니다. 이러한 한계를 해결하기 위해, LLM 관련성 점수를 활용하여 가우시안 프로세스 기반 베이지안 능동 학습(BAGEL)이라는 새로운 프레임워크를 제안합니다. BAGEL은 희소한 LLM 관련성 신호를 임베딩 공간 전체에 확산시켜 전역 탐색을 유도합니다. BAGEL은 LLM 관련성 점수를 기반으로 쿼리별 가우시안 프로세스(GP)를 사용하여 전체 임베딩 공간의 다중 모드 관련성 분포를 모델링합니다. 이후, BAGEL은 높은 신뢰도 영역을 활용하는 것과 불확실한 영역을 탐색하는 것을 전략적으로 균형 있게 조정하여 패시지를 선택적으로 점수 매기기 위해 사용합니다. 네 개의 벤치마크 데이터셋과 두 개의 LLM 백본을 사용한 광범위한 실험 결과, BAGEL은 복잡한 관련성 분포를 효과적으로 탐색하고 포착하며, 동일한 LLM 예산 하에서 네 데이터셋 모두에서 LLM 재순위화 방법보다 우수한 성능을 보였습니다.
While Large Language Models (LLMs) exhibit exceptional zero-shot relevance modeling, their high computational cost necessitates framing passage retrieval as a budget-constrained global optimization problem. Existing approaches passively rely on first-stage dense retrievers, which leads to two limitations: (1) failing to retrieve relevant passages in semantically distinct clusters, and (2) failing to propagate relevance signals to the broader corpus. To address these limitations, we propose Bayesian Active Learning with Gaussian Processes guided by LLM relevance scoring (BAGEL), a novel framework that propagates sparse LLM relevance signals across the embedding space to guide global exploration. BAGEL models the multimodal relevance distribution across the entire embedding space with a query-specific Gaussian Process (GP) based on LLM relevance scores. Subsequently, it iteratively selects passages for scoring by strategically balancing the exploitation of high-confidence regions with the exploration of uncertain areas. Extensive experiments across four benchmark datasets and two LLM backbones demonstrate that BAGEL effectively explores and captures complex relevance distributions and outperforms LLM reranking methods under the same LLM budget on all four datasets.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.