이유 증강 선호도 피드백 기반의 인과적으로 강건한 보상 학습
Causally Robust Reward Learning from Reason-Augmented Preference Feedback
선호도 기반 보상 학습은 사용자의 선호도에 맞춰 에이전트의 행동을 형성하는 데 널리 사용되지만, 희소한 이진 피드백으로 인해 인과적 혼동에 특히 취약합니다. 학습된 보상은 종종 훈련 중에 선호되는 경로와 함께 발생하는 우연한 특징에 부착되며, 이러한 상관관계가 테스트 시점에 사라지거나 반전되면 성능이 저하됩니다. 본 논문에서는 자연어 설명을 사용하여 누락된 인과적 신호를 제공하는 경량 프레임워크인 ReCouPLe를 소개합니다. 각 설명은 임베딩 공간에서 안내 지침 축으로 처리되며, 모델은 해당 축과 정렬된 특징을 기반으로 경로에 점수를 매기고, 명시된 이유와 관련이 없는 맥락을 약화하도록 훈련됩니다. 동일한 설명(예: "충돌을 피함", "작업을 더 빠르게 완료")이 여러 작업에서 나타날 수 있으므로, ReCouPLe는 작업 간에 의미가 공유될 때 동일한 인과적 방향을 자연스럽게 재사용하고, 추가 데이터나 언어 모델 미세 조정 없이 새로운 작업에 선호도 지식을 전달합니다. 우리의 학습된 보상 모델은 명시된 이유에 기반하여 선호도를 반영하므로, 사용자의 의도와 더 잘 일치하며 우연한 특징을 넘어 일반화됩니다. ReCouPLe는 분포 변화 시 최대 1.5배의 보상 정확도 향상, 그리고 새로운 작업에서 다운스트림 정책 성능이 2배 향상되는 등 기존 방법보다 뛰어난 성능을 보입니다. 저희의 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/mj-hwang/ReCouPLe
Preference-based reward learning is widely used for shaping agent behavior to match a user's preference, yet its sparse binary feedback makes it especially vulnerable to causal confusion. The learned reward often latches onto spurious features that merely co-occur with preferred trajectories during training, collapsing when those correlations disappear or reverse at test time. We introduce ReCouPLe, a lightweight framework that uses natural language rationales to provide the missing causal signal. Each rationale is treated as a guiding projection axis in an embedding space, training the model to score trajectories based on features aligned with that axis while de-emphasizing context that is unrelated to the stated reason. Because the same rationales (e.g., "avoids collisions", "completes the task faster") can appear across multiple tasks, ReCouPLe naturally reuses the same causal direction whenever tasks share semantics, and transfers preference knowledge to novel tasks without extra data or language-model fine-tuning. Our learned reward model can ground preferences on the articulated reason, aligning better with user intent and generalizing beyond spurious features. ReCouPLe outperforms baselines by up to 1.5x in reward accuracy under distribution shifts, and 2x in downstream policy performance in novel tasks. We have released our code at https://github.com/mj-hwang/ReCouPLe
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.