오웬-샤플리 정책 최적화(OSPO): 생성형 검색 LLM을 위한 원칙 기반 강화학습 알고리즘
Owen-Shapley Policy Optimization (OSPO): A Principled RL Algorithm for Generative Search LLMs
대규모 언어 모델은 개인화된 추천 작업을 위해 강화학습으로 훈련되는 경우가 늘고 있으나, GRPO와 같은 기존 방법은 희소한 시퀀스 수준 보상에 의존하여 기여도 할당(credit assignment) 격차를 발생시키고, 어떤 토큰이 성공의 요인인지 불분명하게 만듭니다. 이러한 격차는 모델이 정답 레이블 없이 불충분한 언어 정보에서 사용자의 잠재적 의도를 추론해야 할 때 특히 문제가 되는데, 이는 사전 학습에서는 드물게 접하는 추론 패턴입니다. 이에 우리는 결과에 대한 토큰의 한계 기여도를 기반으로 시퀀스 수준의 이점(advantage)을 재분배하는 프레임워크인 오웬-샤플리 정책 최적화(OSPO)를 제안합니다. 추가 연산이 필요한 가치 모델 기반 방법과 달리, OSPO는 샤플리-오웬 기여도를 활용한 잠재력 기반 보상 형상화(potential-based reward shaping)를 통해 최적 정책을 유지하면서 세그먼트 수준의 기여도를 할당하며, 파라메트릭 가치 모델 없이 작업 피드백으로부터 직접 학습합니다. OSPO는 의미적으로 일관된 단위(제품 속성을 설명하는 문구나 선호도를 포착하는 문장)의 연합을 구성하여 응답의 어느 부분이 성능을 주도하는지 식별합니다. Amazon ESCI 및 H&M Fashion 데이터셋에 대한 실험 결과, 기준 모델 대비 일관된 성능 향상을 보였으며, 특히 훈련 중 보지 못한 분포 외(out-of-distribution) 검색기에 대해서도 테스트 시 주목할 만한 견고성을 입증했습니다.
Large language models are increasingly trained via reinforcement learning for personalized recommendation tasks, but standard methods like GRPO rely on sparse, sequence-level rewards that create a credit assignment gap, obscuring which tokens drive success. This gap is especially problematic when models must infer latent user intent from under-specified language without ground truth labels, a reasoning pattern rarely seen during pretraining. We introduce Owen-Shapley Policy Optimization (OSPO), a framework that redistributes sequence-level advantages based on tokens' marginal contributions to outcomes. Unlike value-model-based methods requiring additional computation, OSPO employs potential-based reward shaping via Shapley-Owen attributions to assign segment-level credit while preserving the optimal policy, learning directly from task feedback without parametric value models. By forming coalitions of semantically coherent units (phrases describing product attributes or sentences capturing preferences), OSPO identifies which response parts drive performance. Experiments on Amazon ESCI and H&M Fashion datasets show consistent gains over baselines, with notable test-time robustness to out-of-distribution retrievers unseen during training.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.