MAVRL: Amortized Variational Inference를 활용한 다양한 피드백 유형으로부터의 보상 함수 학습
MAVRL: Learning Reward Functions from Multiple Feedback Types with Amortized Variational Inference
보상 학습은 일반적으로 단일 유형의 피드백에 의존하거나, 수동으로 가중된 손실 항을 사용하여 여러 피드백 유형을 결합합니다. 현재, 데모, 비교, 평점, 정지 등 질적으로 다른 신호를 제공하는 이질적인 피드백 유형으로부터 보상 함수를 공동으로 학습하는 방법에 대한 명확한 지침이 부족합니다. 본 연구에서는 보상 학습 문제를, 공유된 잠재 보상 함수에 대한 베이지안 추론으로 공식화하여, 각 피드백 유형이 명시적인 likelihood를 통해 정보를 기여하도록 합니다. 우리는 확장 가능한 amortized variational inference 접근 방식을 도입하여, 공유된 보상 인코더와 피드백 유형별 likelihood 디코더를 학습하고, 단일 evidence lower bound를 최적화하여 학습합니다. 본 연구는 피드백을 공통 중간 표현으로 줄이는 것을 피하고, 수동 손실 균형의 필요성을 없앱니다. 이산적 및 연속적 제어 벤치마크에서, 공동으로 추론된 보상 분포는 단일 유형 기반 모델보다 우수한 성능을 보이며, 피드백 유형 간의 상호 보완적인 정보를 활용하고, 환경 변화에 더 강건한 정책을 생성합니다. 또한, 추론된 보상 불확실성은 모델의 신뢰도와 일관성을 분석하기 위한 해석 가능한 신호를 제공합니다.
Reward learning typically relies on a single feedback type or combines multiple feedback types using manually weighted loss terms. Currently, it remains unclear how to jointly learn reward functions from heterogeneous feedback types such as demonstrations, comparisons, ratings, and stops that provide qualitatively different signals. We address this challenge by formulating reward learning from multiple feedback types as Bayesian inference over a shared latent reward function, where each feedback type contributes information through an explicit likelihood. We introduce a scalable amortized variational inference approach that learns a shared reward encoder and feedback-specific likelihood decoders and is trained by optimizing a single evidence lower bound. Our approach avoids reducing feedback to a common intermediate representation and eliminates the need for manual loss balancing. Across discrete and continuous-control benchmarks, we show that jointly inferred reward posteriors outperform single-type baselines, exploit complementary information across feedback types, and yield policies that are more robust to environment perturbations. The inferred reward uncertainty further provides interpretable signals for analyzing model confidence and consistency across feedback types.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.