선호도 기반 강화 학습에서 특징 의존적 노이즈 평가
Evaluating Feature Dependent Noise in Preference-based Reinforcement Learning
강화 학습(RL)에서 선호도 기반 학습(PbRL)은 보상 함수를 쉽게 얻기 어려운 복잡한 작업에 적합한 방법론으로 최근 주목받고 있습니다. 그러나 선호도는 완벽한 가이드로부터 얻어지지 않는 경우 불확실성과 노이즈를 포함할 수 있습니다. 기존 연구에서는 주로 노이즈를 탐지하는 데 초점을 맞추었지만, 이는 제한된 유형의 노이즈를 다루었으며, 대부분 관측값과 무관한 균일 분포를 가집니다. 본 연구에서는 특징에 의존적인 노이즈의 개념을 명확히 정의하고, 경로 특징 노이즈, 경로 유사성 노이즈, 불확실성을 고려한 노이즈, 그리고 언어 모델 노이즈와 같은 다양한 변형을 제안합니다. DMControl 및 Meta-world에서 복잡한 연속 제어 작업을 수행하며, 특징에 의존적인 노이즈가 주어졌을 때, 현재 최고 성능의 노이즈에 강건한 PbRL 방법의 학습 성능이 현저하게 저하되는 것을 확인했습니다. 놀랍게도, 명시적인 노이즈 제거 기능을 갖지 않은 PbRL 방법이 대부분의 경우 노이즈에 강건한 PbRL 방법을 능가하는 것을 발견했습니다. 또한, 언어 모델에서 발생하는 노이즈가 특징에 의존적인 노이즈와 유사한 특성을 보이는 것을 확인했으며, 이는 현실적인 인간의 행동을 시뮬레이션하는 데 중요합니다. 따라서 특징에 의존적인 노이즈에 강건하게 학습하는 방법에 대한 추가 연구가 필요합니다.
Learning from Preferences in Reinforcement Learning (PbRL) has gained attention recently, as it serves as a natural fit for complicated tasks where the reward function is not easily available. However, preferences often come with uncertainty and noise if they are not from perfect teachers. Much prior literature aimed to detect noise, but with limited types of noise and most being uniformly distributed with no connection to observations. In this work, we formalize the notion of targeted feature-dependent noise and propose several variants like trajectory feature noise, trajectory similarity noise, uncertainty-aware noise, and Language Model noise. We evaluate feature-dependent noise, where noise is correlated with certain features in complex continuous control tasks from DMControl and Meta-world. Our experiments show that in some feature-dependent noise settings, the state-of-the-art noise-robust PbRL method's learning performance is significantly deteriorated, while PbRL method with no explicit denoising can surprisingly outperform noise-robust PbRL in majority settings. We also find language model's noise exhibits similar characteristics to feature-dependent noise, thereby simulating realistic humans and call for further study in learning with feature-dependent noise robustly.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.