2602.19317v1 Feb 22, 2026 cs.CL

개인화된 질의응답에서의 개인 문맥 다단계 검색을 위한 추론 학습

Learning to Reason for Multi-Step Retrieval of Personal Context in Personalized Question Answering

Maryam Amirizaniani
Maryam Amirizaniani
Citations: 146
h-index: 6
Alireza Salemi
Alireza Salemi
Citations: 1,237
h-index: 14
Hamed Zamani
Hamed Zamani
Citations: 753
h-index: 14

질의응답(QA)의 개인화는 정확하면서도 사용자의 배경, 선호도, 과거 문맥과 일치하는 답변을 요구한다. 기존의 최첨단 방법들은 주로 사용자 프로필에서 관련 항목을 검색하여 개인 문맥을 구성하는 검색 증강 생성(RAG) 솔루션에 의존한다. 기존 방법들은 사용자의 질의를 직접 사용하여 개인 문서를 검색하는데, 이러한 전략은 종종 표면적인 수준의 개인화로 이어진다. 우리는 개인화를 위해 개인 문맥으로부터의 검색과 추론을 통합하는 강화 학습 프레임워크인 PR2(Personalized Retrieval-Augmented Reasoning, 개인화된 검색 증강 추론)를 제안한다. PR2는 적응형 검색-추론 정책을 학습하여 언제 검색할지, 사용자 프로필에서 어떤 증거를 검색할지, 그리고 이를 중간 추론 단계에 어떻게 통합할지 결정한다. 개인화된 보상 함수 하에서 다중 턴(multi-turn) 추론 궤적을 최적화함으로써, 이 프레임워크는 보상 모델에 반영된 사용자별 선호도 및 문맥적 신호와 더 잘 일치하는 추론 경로를 강화한다. 3개의 대형 언어 모델(LLM)을 사용하여 LaMP-QA 벤치마크에서 진행된 광범위한 실험 결과, PR2는 강력한 기준 모델들을 지속적으로 능가하며 개인화된 QA에서 평균 8.8%~12%의 상대적 성능 향상을 달성했다.

Original Abstract

Personalization in Question Answering (QA) requires answers that are both accurate and aligned with users' background, preferences, and historical context. Existing state-of-the-art methods primarily rely on retrieval-augmented generation (RAG) solutions that construct personal context by retrieving relevant items from the user's profile. Existing methods use the user's query directly to retrieve personal documents, and such strategies often lead to surface-level personalization. We propose PR2 (Personalized Retrieval-Augmented Reasoning), a reinforcement learning framework that integrates reasoning and retrieval from personal context for personalization. PR2 learns adaptive retrieval-reasoning policies, determining when to retrieve, what evidence to retrieve from user profiles, and how to incorporate it into intermediate reasoning steps. By optimizing multi-turn reasoning trajectories under a personalized reward function, the framework reinforces reasoning paths that better align with user-specific preferences and contextual signals reflected by the reward model. Extensive experiments on the LaMP-QA benchmark using three LLMs show that PR2 consistently outperforms strong baselines, achieving an average relative improvement of 8.8%-12% in personalized QA.

1 Citations
0 Influential
7 Altmetric
36.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!