2602.10699v2 Feb 11, 2026 cs.AI

가치가 있는 곳에 집중: 생성적 추천을 위한 가치 기반 구조화된 샘플링 및 최적화

Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation

Huan Yu
Huan Yu
Citations: 27
h-index: 1
Jie Jiang
Jie Jiang
Citations: 27
h-index: 3
Yangru Huang
Yangru Huang
Citations: 12
h-index: 1
Zeyu Wang
Zeyu Wang
Citations: 1
h-index: 1
Changping Wang
Changping Wang
Citations: 10
h-index: 1
Yuling Xiong
Yuling Xiong
Citations: 10
h-index: 1
Jun Zhang
Jun Zhang
Citations: 10
h-index: 1

오토리그래시브 모델을 활용한 생성적 추천은 검색과 순위를 단일 조건부 생성 프레임워크로 통합합니다. 그러나 강화 학습(RL)을 통해 이러한 모델을 미세 조정하는 것은 종종 근본적인 확률-보상 불일치 문제를 겪습니다. 기존의 likelihood 기반 디코딩 (예: 빔 서치)은 국지적으로 높은 확률을 가진 접두사에 대한 근시안적인 편향을 보이며, 이는 다음과 같은 두 가지 중요한 문제를 야기합니다. (1) 충분하지 않은 탐색: 높은 보상을 제공하는 항목이 낮은 확률 영역에 위치하여 조기에 제거되고 거의 샘플링되지 않습니다. (2) 이점 압축: 높은 확률의 접두사를 공유하는 경로들은 높은 상관 관계를 가진 보상을 받으며, 그룹 내 분산이 낮아 RL을 위한 약한 비교 신호를 제공합니다. 이러한 문제점을 해결하기 위해, 우리는 가치 기반 샘플링 및 트리 구조 기반 이점 강화 프레임워크인 V-STAR를 제안합니다. V-STAR는 두 가지 시너지 효과를 가진 구성 요소를 통해 자체적으로 발전하는 루프를 형성합니다. 첫째, 결정적인 노드를 식별하고 잠재력이 높은 접두사를 선택적으로 심화시키는 가치 기반 효율적인 디코딩(VED)을 개발하여, 광범위한 트리 검색 없이 탐색 효율성을 향상시킵니다. 둘째, 우리는 유도된 트리 구조를 활용하여 sibling 상대적인 이점을 계산하고, 학습 신호를 중요한 분기 결정에 집중시키는 Sibling-GRPO를 제안합니다. 오프라인 및 온라인 데이터셋에 대한 광범위한 실험 결과, V-STAR는 최첨단 기준 모델보다 우수한 성능을 보이며, 엄격한 지연 시간 제약 조건 하에서 우수한 정확도와 후보 집합 다양성을 제공합니다.

Original Abstract

Generative recommendation via autoregressive models has unified retrieval and ranking into a single conditional generation framework. However, fine-tuning these models with Reinforcement Learning (RL) often suffers from a fundamental probability-reward mismatch. Conventional likelihood-dominated decoding (e.g., beam search) exhibits a myopic bias toward locally probable prefixes, which causes two critical failures: (1) insufficient exploration, where high-reward items in low-probability branches are prematurely pruned and rarely sampled, and (2) advantage compression, where trajectories sharing high-probability prefixes receive highly correlated rewards with low within-group variance, yielding a weak comparative signal for RL. To address these challenges, we propose V-STAR, a Value-guided Sampling and Tree-structured Advantage Reinforcement framework. V-STAR forms a self-evolving loop via two synergistic components. First, a Value-Guided Efficient Decoding (VED) is developed to identify decisive nodes and selectively deepen high-potential prefixes. This improves exploration efficiency without exhaustive tree search. Second, we propose Sibling-GRPO, which exploits the induced tree topology to compute sibling-relative advantages and concentrates learning signals on decisive branching decisions. Extensive experiments on both offline and online datasets demonstrate that V-STAR outperforms state-of-the-art baselines, delivering superior accuracy and candidate-set diversity under strict latency constraints.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!