2603.06138v1 Mar 06, 2026 cs.LG

LLM 환경에서의 강화 학습을 위한 부분 정책 그래디언트

Partial Policy Gradients for RL in LLMs

Puneet Mathur
Puneet Mathur
Citations: 280
h-index: 9
B. Kveton
B. Kveton
Citations: 4,695
h-index: 38
Subhojyoti Mukherjee
Subhojyoti Mukherjee
Adobe Research
Citations: 285
h-index: 11
V. Lai
V. Lai
Citations: 128
h-index: 5

강화 학습은 불확실한 환경에서 순차적으로 행동하는 방법을 학습하는 프레임워크입니다. 본 연구에서는 정책 그래디언트 모델링에 대한 자연스러운 접근 방식을 제안합니다. 핵심 아이디어는 미래 보상의 부분 집합을 사용하여 최적화를 수행하는 것입니다. 더 작은 부분 집합은 더 간단한 정책을 나타내며, 이는 경험적 그래디언트 추정치가 더 정확하기 때문에 더 안정적으로 학습될 수 있습니다. 우리의 접근 방식은 전체 계획, 탐욕(greedy), K-단계 예측, 그리고 세분화된 정책을 포함한 다양한 정책 클래스를 모델링하고 비교할 수 있도록 합니다. 우리는 여러 페르소나 일치 대화 문제에 대한 다양한 정책을 경험적으로 평가했습니다. 다양한 정책은 서로 다른 문제에서 뛰어난 성능을 보이며, 이는 각 정책의 고유한 특징을 반영하고 우리가 연구한 정책 클래스의 중요성을 강조합니다.

Original Abstract

Reinforcement learning is a framework for learning to act sequentially in an unknown environment. We propose a natural approach for modeling policy structure in policy gradients. The key idea is to optimize for a subset of future rewards: smaller subsets represent simpler policies, which can be learned more reliably because their empirical gradient estimates are more accurate. Our approach allows for modeling and comparison of different policy classes, including full planning, greedy, K-step lookahead, and segment policies. We evaluate the policies empirically on multiple persona-alignment conversational problems. Different policies excel in different problems, reflecting their different characteristics and highlighting the importance of our studied policy class.

0 Citations
0 Influential
19 Altmetric
95.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!