2601.00677v2 Jan 02, 2026 cs.LG

IRPM: 포인트 기반 생성형 보상 모델을 위한 집단 간 상대 선호도 모델링

IRPM: Intergroup Relative Preference Modeling for Pointwise Generative Reward Models

Yang Xiao
Yang Xiao
Citations: 2,602
h-index: 6
Huan Zhu
Huan Zhu
Citations: 4
h-index: 1
Haonan Song
Haonan Song
Citations: 6
h-index: 1
Qingchen Xie
Qingchen Xie
Citations: 1
h-index: 1
Feng Xiao
Feng Xiao
Citations: 0
h-index: 0
Luxi Xing
Luxi Xing
Citations: 0
h-index: 0
Liu Kang
Liu Kang
Citations: 0
h-index: 0
Fuzhen Li
Fuzhen Li
Citations: 0
h-index: 0
Zhiyong Zheng
Zhiyong Zheng
Citations: 0
h-index: 0
Feng Jiang
Feng Jiang
Citations: 267
h-index: 4
Ziheng Li
Ziheng Li
Citations: 0
h-index: 0
Kun Yan
Kun Yan
Citations: 142
h-index: 3
Qingyi Si
Qingyi Si
Citations: 0
h-index: 0
Hongcheng Guo
Hongcheng Guo
Citations: 0
h-index: 0
Fan Yang
Fan Yang
Citations: 0
h-index: 0

생성형 보상 모델(GRM)은 해석 용이성과 강화 학습(RL)을 통한 개선 가능성 덕분에 보상 모델링 분야에서 뛰어난 성능을 보여왔습니다. 그러나 널리 사용되는 쌍 비교 GRM은 인간 피드백을 이용한 강화 학습(RLHF)에서 n개의 후보에 대한 선호도 신호를 조정하거나 집계할 때 계산 병목 현상을 일으키는데, 이는 종종 O(n^2)의 쌍 비교 판단을 필요로 합니다. 이 문제를 해결하기 위해, 우리는 쌍 비교 선호도 데이터를 기반으로 포인트 기반 GRM을 학습하는 강화 학습 기반 방법인 집단 간 상대 선호도 모델링(IRPM)을 제안합니다. IRPM은 선택된 샘플 그룹과 거부된 샘플 그룹을 비교하여 각 응답에 대한 포인트 기반 보상을 도출하며, 이를 통해 후보 집합에 관계없이 비교 가능한 포인트 점수를 얻을 수 있습니다. IRPM은 강화 학습 훈련 과정에서 후보의 개수가 변동하더라도 O(n)의 보상 평가를 가능하게 하며, 해석 용이성과 확장성을 유지합니다. 실험 결과, IRPM은 RM-Bench, JudgeBench 및 RewardBench에서 포인트 기반 GRM 중 최고 수준의 성능을 달성했으며, 선도적인 쌍 비교 GRM에 버금가는 성능을 보였습니다. 또한, IRPM은 학습 후 평가에서 상당한 성능 향상을 보여 효과성을 입증했습니다.

Original Abstract

Generative Reward Models (GRMs) have demonstrated strong performance in reward modeling, due to their interpretability and potential for refinement through reinforcement learning (RL). However, widely used pairwise GRMs create a computational bottleneck in reinforcement learning from human feedback (RLHF), when calibrating or aggregating preference signals over n candidates, often incurring O(n^2) pairwise judgments. To address this issue, we propose Intergroup Relative Preference Modeling (IRPM), an RL-based method that extends the Bradley--Terry preference-learning paradigm via intergroup comparisons to train pointwise GRMs from pairwise preference data. IRPM derives pointwise reward for each response by contrasting groups of chosen vs. rejected samples, enabling pointwise scores comparable across candidate sets and O(n) reward evaluation for a variable number of candidates during RL training, while preserving interpretability and scalability. Experiments show that IRPM achieves state-of-the-art performance among pointwise GRMs on RM-Bench, JudgeBench and RewardBench, and approaches the performance of leading pairwise GRMs. In addition, IRPM achieves substantial gains in post-training evaluations, demonstrating its effectiveness.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!