2602.08829v1 Feb 09, 2026 cs.CL

WildReward: 실제 환경에서의 사용자 상호 작용을 활용한 보상 모델 학습

WildReward: Learning Reward Models from In-the-Wild Human Interactions

Hao Peng
Hao Peng
Citations: 354
h-index: 8
Yunjia Qi
Yunjia Qi
Citations: 263
h-index: 7
Xiaozhi Wang
Xiaozhi Wang
Tsinghua University
Citations: 4,267
h-index: 25
Zijun Yao
Zijun Yao
Citations: 522
h-index: 10
Lei Hou
Lei Hou
Citations: 294
h-index: 6
Juanzi Li
Juanzi Li
Citations: 647
h-index: 10

보상 모델(RM)은 대규모 언어 모델(LLM) 훈련에 필수적이지만, 일반적으로 대규모의 인간이 직접 작성한 선호도 쌍 데이터에 의존합니다. LLM의 광범위한 배포로 인해, 실제 환경에서의 사용자 상호 작용은 중요한 암묵적 보상 신호의 원천으로 부상했습니다. 본 연구에서는 이러한 가능성을 탐구하여, WildChat을 상호 작용 데이터 소스로 활용하고, 사용자 피드백으로부터 신뢰할 수 있는 정보를 추출하는 파이프라인을 제안합니다. 이를 통해 186,000개의 고품질 데이터를 확보하여, 선호도 쌍 데이터 없이 순위 회귀를 통해 WildReward 모델을 직접 학습했습니다. 광범위한 실험 결과, WildReward는 기존의 보상 모델과 비교하여 동등하거나 더 우수한 성능을 보였으며, 교정 성능과 샘플 간 일관성이 향상되었습니다. 또한, 사용자 다양성이 증가할수록 더 강력한 보상 모델을 구축할 수 있음을 확인했습니다. 마지막으로, WildReward를 온라인 DPO 훈련에 적용한 결과, 다양한 작업에서 상당한 성능 향상을 관찰했습니다. 코드 및 데이터는 https://github.com/THU-KEG/WildReward 에서 확인할 수 있습니다.

Original Abstract

Reward models (RMs) are crucial for the training of large language models (LLMs), yet they typically rely on large-scale human-annotated preference pairs. With the widespread deployment of LLMs, in-the-wild interactions have emerged as a rich source of implicit reward signals. This raises the question: Can we develop reward models directly from in-the-wild interactions? In this work, we explore this possibility by adopting WildChat as an interaction source and proposing a pipeline to extract reliable human feedback, yielding 186k high-quality instances for training WildReward via ordinal regression directly on user feedback without preference pairs. Extensive experiments demonstrate that WildReward achieves comparable or even superior performance compared to conventional reward models, with improved calibration and cross-sample consistency. We also observe that WildReward benefits directly from user diversity, where more users yield stronger reward models. Finally, we apply WildReward to online DPO training and observe significant improvements across various tasks. Code and data are released at https://github.com/THU-KEG/WildReward.

0 Citations
0 Influential
47.222194895832 Altmetric
236.1 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!