생성적 추론 재순위화 모델
Generative Reasoning Re-ranker
최근 연구에서는 대규모 언어 모델(LLM)이 확장성과 풍부한 지식을 바탕으로 추천 시스템의 새로운 패러다임을 제시할 수 있다는 점이 점점 더 강조되고 있습니다. 그러나 기존 연구는 다음과 같은 세 가지 주요 한계점을 가지고 있습니다. (1) 대부분의 연구는 검색 및 순위에 집중하는 반면, 최종 추천을 개선하는 데 중요한 역할을 하는 재순위화 단계는 상대적으로 간과되고 있습니다. (2) LLM은 일반적으로 제로샷 또는 지도 학습 방식으로 활용되므로, 강화 학습(RL) 및 고품질 추론 데이터를 통해 향상된 LLM의 추론 능력이 충분히 활용되지 못하고 있습니다. (3) 아이템은 일반적으로 의미론적 정보가 없는 ID로 표현되어 산업 시스템에서 수십억 개의 식별자를 처리하는 데 큰 어려움을 초래합니다. 이러한 문제점을 해결하기 위해, 우리는 재순위화에 특화된 세 단계의 학습 파이프라인을 갖춘 엔드 투 엔드 프레임워크인 생성적 추론 재순위화 모델(Generative Reasoning Reranker, GR2)을 제안합니다. 먼저, 사전 학습된 LLM을 토크나이저를 통해 의미론적 ID로 변환된 비의미론적 ID를 사용하여 중간 학습을 진행하며, 99% 이상의 고유성을 확보합니다. 다음으로, 신중하게 설계된 프롬프팅 및 거부 샘플링을 통해 더 강력하고 대규모의 LLM이 고품질의 추론 과정을 생성하고, 이를 활용하여 기본적인 추론 능력을 향상시키는 지도 학습을 수행합니다. 마지막으로, Decoupled Clip 및 Dynamic sAmpling Policy Optimization (DAPO)를 적용하여 검증 가능한 보상을 기반으로 확장 가능한 강화 학습을 수행합니다. 두 가지 실제 데이터셋에 대한 실험 결과, GR2는 OneRec-Think 모델보다 Recall@5에서 2.4%, NDCG@5에서 1.3% 더 높은 성능을 보였습니다. 추가적인 분석을 통해, 고급 추론 과정이 다양한 지표에서 상당한 성능 향상을 가져온다는 것을 확인했습니다. 또한, 재순위화 과정에서 RL 보상 설계가 매우 중요하다는 것을 발견했습니다. LLM은 아이템 순서를 유지함으로써 보상을 악용하는 경향이 있으므로, 이러한 현상을 완화하고 재순위화 성능을 최적화하기 위해 조건부 검증 가능한 보상을 사용하는 것이 중요합니다.
Recent studies increasingly explore Large Language Models (LLMs) as a new paradigm for recommendation systems due to their scalability and world knowledge. However, existing work has three key limitations: (1) most efforts focus on retrieval and ranking, while the reranking phase, critical for refining final recommendations, is largely overlooked; (2) LLMs are typically used in zero-shot or supervised fine-tuning settings, leaving their reasoning abilities, especially those enhanced through reinforcement learning (RL) and high-quality reasoning data, underexploited; (3) items are commonly represented by non-semantic IDs, creating major scalability challenges in industrial systems with billions of identifiers. To address these gaps, we propose the Generative Reasoning Reranker (GR2), an end-to-end framework with a three-stage training pipeline tailored for reranking. First, a pretrained LLM is mid-trained on semantic IDs encoded from non-semantic IDs via a tokenizer achieving $\ge$99% uniqueness. Next, a stronger larger-scale LLM generates high-quality reasoning traces through carefully designed prompting and rejection sampling, which are used for supervised fine-tuning to impart foundational reasoning skills. Finally, we apply Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO), enabling scalable RL supervision with verifiable rewards designed specifically for reranking. Experiments on two real-world datasets demonstrate GR2's effectiveness: it surpasses the state-of-the-art OneRec-Think by 2.4% in Recall@5 and 1.3% in NDCG@5. Ablations confirm that advanced reasoning traces yield substantial gains across metrics. We further find that RL reward design is crucial in reranking: LLMs tend to exploit reward hacking by preserving item order, motivating conditional verifiable rewards to mitigate this behavior and optimize reranking performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.