2601.21452v3 Jan 29, 2026 cs.LG

SAGE: 시퀀스 레벨 적응형 그래디언트 진화 기반 생성형 추천

SAGE: Sequence-level Adaptive Gradient Evolution for Generative Recommendation

Yu Xie

Citations: 26

h-index: 3

Yao Hu

Citations: 61

h-index: 4

Xingkai Ren

Citations: 5

h-index: 1

Ying Qi

Citations: 5

h-index: 1

강화 학습 기반 선호도 최적화는 목록 기반 생성형 추천 시스템을 복잡하고 다중 목표의 사용자 피드백에 맞추는 데 점점 더 많이 사용되지만, 기존 최적화 알고리즘인 Gradient-Bounded Policy Optimization (GBPO)은 추천 환경에서 구조적인 한계를 보입니다. 우리는 Symmetric Conservatism이라는 실패 모드를 식별했는데, 이는 대칭적인 업데이트 경계가 희귀한 긍정적 신호(예: 콜드 스타트 아이템)로부터의 학습을 억제하고, 정적인 부정 샘플 제약 조건이 거부 중심 피드백 환경에서 다양성 붕괴를 방지하지 못하며, 그룹 정규화된 다중 목표 보상이 낮은 해상도의 학습 신호를 유발한다는 것입니다. 이러한 문제를 해결하기 위해, 우리는 목록 기반 생성형 추천을 위해 설계된 통합 최적화 알고리즘인 SAGE (Sequence-level Adaptive Gradient Evolution)를 제안합니다. SAGE는 기하 평균 중요도 비율을 통한 시퀀스 레벨 신호 정렬과 분리된 다중 목표 이점 추정기를 도입하여 토큰 레벨의 분산을 줄이고 보상 붕괴를 완화하며, 성공적인 추천 목록에 긍정적인 Boost 업데이트를 적용하는 비대칭적인 적응형 경계와 다양성 저하를 방지하기 위한 엔트로피 기반 페널티를 함께 사용합니다. Amazon Product Reviews 및 대규모 RecIF-Bench 데이터셋에서의 실험 결과, SAGE는 Semantic-ID 및 원본 텍스트 액션 공간 모두에서 상위 K 정확도, 콜드 스타트 재현율 및 다양성 측면에서 일관된 성능 향상을 보여주며, 동시에 학습 과정에서의 수치적 안정성을 유지합니다. 이러한 결과는 비대칭적이고 시퀀스 인지적인 정책 최적화가 생성형 추천에서의 최적화 실패 문제를 해결하는 데 있어 원칙적이고 효과적인 프레임워크를 제공한다는 것을 시사합니다.

Original Abstract

Reinforcement learning-based preference optimization is increasingly used to align list-wise generative recommenders with complex, multi-objective user feedback, yet existing optimizers such as Gradient-Bounded Policy Optimization (GBPO) exhibit structural limitations in recommendation settings. We identify a Symmetric Conservatism failure mode in which symmetric update bounds suppress learning from rare positive signals (e.g., cold-start items), static negative-sample constraints fail to prevent diversity collapse under rejection-dominated feedback, and group-normalized multi-objective rewards lead to low-resolution training signals. To address these issues, we propose SAGE (Sequence-level Adaptive Gradient Evolution), a unified optimizer designed for list-wise generative recommendation. SAGE introduces sequence-level signal alignment via a geometric-mean importance ratio and a decoupled multi-objective advantage estimator to reduce token-level variance and mitigate reward collapse, together with asymmetric adaptive bounding that applies positive Boost updates to successful slates and an entropy-aware penalty to discourage low-diversity failures. Experiments on Amazon Product Reviews and the large-scale RecIF-Bench demonstrate consistent improvements in top-K accuracy, cold-start recall, and diversity across both Semantic-ID and native-text action spaces, while preserving numerical stability during training. These results suggest that asymmetric, sequence-aware policy optimization provides a principled and effective framework for addressing optimization failures in generative recommendation.

1 Citations

0 Influential

2 Altmetric

11.0 Score

Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!