ReCast: 생성형 추천 시스템에서의 강화 학습을 위한 학습 신호 재구성
ReCast: Recasting Learning Signals for Reinforcement Learning in Generative Recommendation
일반적인 그룹 기반 강화 학습은 샘플링된 rollout 그룹이 이미 사용 가능한 학습 신호라고 가정합니다. 본 연구에서는 희소한 클릭 데이터 환경에서 이러한 가정이 어떻게 깨지는지 보여줍니다. 희소한 클릭 데이터 환경에서는 많은 샘플링된 그룹이 전혀 학습에 사용될 수 없는 경우가 많습니다. 본 연구는 ReCast라는 새로운 프레임워크를 제안합니다. ReCast는 먼저 모든 그룹에 대해 최소한의 학습 가능성을 복원한 다음, 전체 그룹에 대한 보상 정규화를 수행하는 대신, 가장 긍정적인 샘플과 가장 어려운 부정적인 샘플에 초점을 맞춘 대비 학습을 통해 그룹 내 신호를 업데이트합니다. ReCast는 기존 강화 학습 프레임워크를 변경하지 않고, 그룹 내 신호 생성 부분만 수정하며, rollout 탐색 폭과 actor 측 업데이트 폭을 부분적으로 분리합니다. 다양한 생성형 추천 작업에서 ReCast는 OpenOneRec-RL보다 일관되게 우수한 성능을 보이며, Pass@1 지표에서 최대 36.6%의 상대적인 성능 향상을 달성했습니다. 또한, ReCast는 훨씬 더 적은 rollout 예산으로 기준 성능을 달성하며, 모델 크기가 커질수록 이러한 이점은 더욱 두드러집니다. 이러한 설계는 시스템 수준에서도 직접적인 이점을 제공하며, actor 측 업데이트 시간을 16.60배 단축하고, 최고 할당 메모리를 16.5% 줄이며, actor의 모델 활용률을 14.2% 향상시킵니다. 메커니즘 분석 결과, ReCast는 지속적인 모든 0 또는 단일 클릭 상황을 완화하고, 자연스러운 긍정 샘플이 부족한 경우에도 학습 가능성을 복원하며, 그렇지 않으면 낭비될 rollout 예산을 더 안정적인 정책 업데이트로 전환합니다. 이러한 결과는 생성형 추천 시스템에서 중요한 강화 학습 문제는 보상을 어떻게 할당할 것인지 뿐만 아니라, 희소하고 구조화된 데이터로부터 학습 가능한 최적화 이벤트를 어떻게 구성할 것인지에 달려 있다는 것을 시사합니다.
Generic group-based RL assumes that sampled rollout groups are already usable learning signals. We show that this assumption breaks down in sparse-hit generative recommendation, where many sampled groups never become learnable at all. We propose ReCast, a repair-then-contrast learning-signal framework that first restores minimal learnability for all-zero groups and then replaces full-group reward normalization with a boundary-focused contrastive update on the strongest positive and the hardest negative. ReCast leaves the outer RL framework unchanged, modifies only within-group signal construction, and partially decouples rollout search width from actor-side update width. Across multiple generative recommendation tasks, ReCast consistently outperforms OpenOneRec-RL, achieving up to 36.6% relative improvement in Pass@1. Its matched-budget advantage is substantially larger: ReCast reaches the baseline's target performance with only 4.1% of the rollout budget, and this advantage widens with model scale. The same design also yields direct system-level gains, reducing actor-side update time by 16.60x, lowering peak allocated memory by 16.5%, and improving actor MFU by 14.2%. Mechanism analysis shows that ReCast mitigates the persistent all-zero / single-hit regime, restores learnability when natural positives are scarce, and converts otherwise wasted rollout budget into more stable policy updates. These results suggest that, for generative recommendation, the decisive RL problem is not only how to assign rewards, but how to construct learnable optimization events from sparse, structured supervision.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.