가치가 있는 곳에 탐색 집중하기: 생성형 추천을 위한 가치 유도 구조적 샘플링 및 최적화
Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation
자기회귀 모델을 통한 생성형 추천은 검색과 랭킹을 하나의 조건부 생성 프레임워크로 통합했습니다. 그러나 이러한 모델을 강화 학습(RL)으로 미세 조정하는 것은 종종 근본적인 확률-보상 불일치 문제로 인해 어려움을 겪습니다. 기존의 우도(likelihood) 중심 디코딩(예: 빔 서치)은 국소적으로 확률이 높은 접두어(prefix)에 편향되어 두 가지 치명적인 실패를 야기합니다: (1) 불충분한 탐색: 낮은 확률의 분기에 있는 고보상 아이템들이 조기에 가지치기되어 거의 샘플링되지 않는 문제, (2) 어드밴티지 압축: 고확률 접두어를 공유하는 궤적들이 낮은 그룹 내 분산을 가지며 높은 상관관계의 보상을 받아 RL을 위한 비교 신호가 약해지는 문제. 이러한 문제를 해결하기 위해 우리는 가치 유도 샘플링 및 트리 구조 어드밴티지 강화 프레임워크인 V-STAR를 제안합니다. V-STAR는 시너지를 내는 두 가지 구성 요소를 통해 자가 발전 루프를 형성합니다. 첫째, 결정적 노드를 식별하고 잠재력이 높은 접두어를 선택적으로 깊게 탐색하는 가치 유도 효율적 디코딩(VED)을 개발하여, 완전 트리 탐색 없이 탐색 효율성을 높입니다. 둘째, 유도된 트리 위상을 활용하여 형제 노드 상대적 어드밴티지를 계산하고 결정적인 분기 결정에 학습 신호를 집중시키는 Sibling-GRPO를 제안합니다. 오프라인 및 온라인 데이터셋에 대한 광범위한 실험 결과, V-STAR는 엄격한 지연 시간 제약 하에서도 우수한 정확도와 후보 집합 다양성을 제공하며 최신 베이스라인들을 능가함을 입증했습니다.
Generative recommendation via autoregressive models has unified retrieval and ranking into a single conditional generation framework. However, fine-tuning these models with Reinforcement Learning (RL) often suffers from a fundamental probability-reward mismatch. Conventional likelihood-dominated decoding (e.g., beam search) exhibits a myopic bias toward locally probable prefixes, which causes two critical failures: (1) insufficient exploration, where high-reward items in low-probability branches are prematurely pruned and rarely sampled, and (2) advantage compression, where trajectories sharing high-probability prefixes receive highly correlated rewards with low within-group variance, yielding a weak comparative signal for RL. To address these challenges, we propose V-STAR, a Value-guided Sampling and Tree-structured Advantage Reinforcement framework. V-STAR forms a self-evolving loop via two synergistic components. First, a Value-Guided Efficient Decoding (VED) is developed to identify decisive nodes and selectively deepen high-potential prefixes. This improves exploration efficiency without exhaustive tree search. Second, we propose Sibling-GRPO, which exploits the induced tree topology to compute sibling-relative advantages and concentrates learning signals on decisive branching decisions. Extensive experiments on both offline and online datasets demonstrate that V-STAR outperforms state-of-the-art baselines, delivering superior accuracy and candidate-set diversity under strict latency constraints.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.