오류가 유익해질 때: 정책 경사법을 위한 불완전한 보상의 분류
When Errors Can Be Beneficial: A Categorization of Imperfect Rewards for Policy Gradient
강화 학습을 통해 언어 모델을 훈련하는 것은 종종 실제 행동을 정확하게 정의하는 진정한 보상이 거의 존재하지 않기 때문에, 불완전한 대체 보상에 의존합니다. 대체 보상의 품질을 평가하는 표준 지표(예: 순위 정확도)는 부정확한 보상을 엄격하게 해로운 것으로 간주합니다. 그러나 본 연구에서는 모든 진정한 보상과의 편차가 동일하지 않음을 강조합니다. 정책 경사법 최적화 과정에서 특정 출력이 가질 확률에 미치는 영향을 이론적으로 분석함으로써, 우리는 진정한 보상 증가에 미치는 영향에 따라 보상 오류를 분류합니다. 분석 결과, 일반적으로 해로운 것으로 여겨지는 보상 오류가, 중간 수준의 진정한 보상을 가진 출력 주변에서 정책이 정체되는 것을 방지함으로써 오히려 무해하거나 심지어 유익할 수 있음을 보여줍니다. 우리는 이러한 이론의 두 가지 실질적인 함의를 제시합니다. 첫째, 인간 피드백 기반 강화 학습(RLHF)을 위한 보상 모델 평가 지표를 개발하여, 보상 오류의 해로움을 고려합니다. 이러한 지표는 일반적으로 표준 순위 정확도보다 RLHF 이후 언어 모델의 성능과 더 잘 상관 관계를 보이지만, 보상 모델을 견고하게 평가하는 데 여전히 개선의 여지가 있습니다. 둘째, 검증 가능한 보상이 있는 환경에서 보상 설계에 대한 통찰력을 제공합니다. 우리의 결과에서 나타나는 핵심 주제는 대체 보상 함수의 효과가 초기 정책 및 학습 알고리즘과의 상호 작용에 크게 의존한다는 것입니다.
Training language models via reinforcement learning often relies on imperfect proxy rewards, since ground truth rewards that precisely define the intended behavior are rarely available. Standard metrics for assessing the quality of proxy rewards, such as ranking accuracy, treat incorrect rewards as strictly harmful. In this work, however, we highlight that not all deviations from the ground truth are equal. By theoretically analyzing which outputs attract probability during policy gradient optimization, we categorize reward errors according to their effect on the increase in ground truth reward. The analysis establishes that reward errors, though conventionally viewed as harmful, can also be benign or even beneficial by preventing the policy from stalling around outputs with mediocre ground truth reward. We then present two practical implications of our theory. First, for reinforcement learning from human feedback (RLHF), we develop reward model evaluation metrics that account for the harmfulness of reward errors. Compared to standard ranking accuracy, these metrics typically correlate better with the performance of a language model after RLHF, yet gaps remain in robustly evaluating reward models. Second, we provide insights for reward design in settings with verifiable rewards. A key theme underlying our results is that the effectiveness of a proxy reward function depends heavily on its interaction with the initial policy and learning algorithm.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.