2603.13776v1 Mar 14, 2026 cs.IR

효율적인 LLM 기반 질의 확장을 위한 검색-피드백 기반 증류 및 선호도 정렬

Retrieval-Feedback-Driven Distillation and Preference Alignment for Efficient LLM-based Query Expansion

Minghan Li
Minghan Li
Citations: 24
h-index: 3
Guodong Zhou
Guodong Zhou
Citations: 16
h-index: 2

최근 대규모 언어 모델은 질의 확장에 대한 생성적 패러다임을 가능하게 했지만, 높은 추론 비용으로 인해 실제 검색 시스템에 직접 적용하기 어렵습니다. 이러한 문제를 해결하기 위해, 강력한 교사 모델의 검색 친화적인 확장 방식을 작은 학생 모델로 이전하는 검색-피드백 기반 증류 및 선호도 정렬 프레임워크를 제안합니다. 이 프레임워크는 추론 시 소량의 예제를 사용하는 대신, 제로샷 및 퓨샷 프롬프팅 조건에서 생성된 두 가지 상호 보완적인 교사 모델의 확장을 증류를 위한 지도 신호와 선호도 구성 후보 풀로 활용합니다. 또한, nDCG@10 차이에 따른 선택/거부 확장 쌍을 자동으로 구성하는 검색 메트릭 기반 전략을 도입하고, Direct Preference Optimization을 적용하여 생성 선호도를 검색 목표와 명시적으로 일치시킵니다. TREC DL19/20/21 및 MIRACL-zh 데이터 세트에 대한 실험 결과, 제안된 방법은 강력한 검색 효과를 유지하면서 추론 비용을 크게 줄입니다. 특히, 증류된 Qwen3-4B 모델은 DL19 데이터 세트에서 교사 모델(DeepSeek-685B)의 nDCG@10 성능의 약 97%를 달성하며, 중국어 MIRACL-zh 벤치마크에서도 효과적인 성능을 유지하여, 영어 및 중국어 검색 환경 모두에서 강력한 실용성을 입증합니다.

Original Abstract

Large language models have recently enabled a generative paradigm for query expansion, but their high inference cost makes direct deployment difficult in practical retrieval systems. To address this issue, a retrieval-feedback-driven distillation and preference-alignment framework is proposed to transfer retrieval-friendly expansion behavior from a strong teacher model to a compact student model. Rather than relying on few-shot exemplars at inference time, the framework first leverages two complementary types of teacher-generated expansions, produced under zero-shot and few-shot prompting conditions, as supervision signals for distillation and as candidate pools for preference construction. A retrieval-metric-driven strategy is then introduced to automatically form chosen/rejected expansion pairs according to nDCG@10 differences, and Direct Preference Optimization is applied to explicitly align generation preferences with retrieval objectives. Experiments on TREC DL19/20/21 and MIRACL-zh show that the proposed approach preserves strong retrieval effectiveness while substantially reducing inference cost. In particular, the distilled Qwen3-4B model reaches about 97% of the teacher (DeepSeek-685B) model's nDCG@10 performance on DL19, and remains effective on the Chinese MIRACL-zh benchmark, demonstrating strong practicality across both English and Chinese retrieval settings.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!