페어별 최대 불일치 경쟁을 통한 보상 모델 일반화 평가
Evaluating Reward Model Generalization via Pairwise Maximum Discrepancy Competitions
보상 모델(RM)은 대규모 언어 모델을 정렬하는 데 핵심적인 역할을 하지만, 실제 효과는 미지의 프롬프트와 변화하는 분포에 대한 일반화 능력에 달려 있습니다. 대부분의 기존 RM 평가는 정적이고 미리 주석이 달린 선호도 데이터 세트에 의존하는데, 이는 제한적인 범위를 제공하며 개방형 환경에서 일반화를 정확하게 평가하는 데 종종 실패합니다. 본 연구에서는 대규모의 레이블이 없는 개방형 도메인 프롬프트 풀을 사용하여 RM 일반화를 평가하는 동적이고 주석 효율적인 프레임워크인 페어별 최대 불일치 경쟁(PMDC)을 소개합니다. PMDC는 두 개의 RM 간의 불일치를 최대화하는 프롬프트-응답 쌍을 능동적으로 선택하여, 논쟁의 여지가 있는 테스트 사례의 간결한 집합을 생성합니다. 이러한 사례는 오라클에 의해 판단되며, 그 결과는 브래들리-테리 모델을 통해 집계되어 RM의 전반적인 순위와 페어별 승률을 나타내는 지도를 생성합니다. PMDC를 사용하여 10개의 대표적인 RM을 재평가한 결과, 기존 벤치마크와 비교하여 상당한 순위 재조정이 나타났습니다. 추가적인 질적 분석을 통해 체계적인 일반화 실패 사례를 밝혀내어, 보상 모델링 개선을 위한 귀중한 통찰력을 제공합니다.
Reward models (RMs) are central to aligning large language models, yet their practical effectiveness hinges on generalization to unseen prompts and shifting distributions. Most existing RM evaluations rely on static, pre-annotated preference datasets, which provide limited coverage and often fail to faithfully assess generalization in open-world settings. We introduce Pairwise Maximum Discrepancy Competition (PMDC), a dynamic and annotation-efficient framework for evaluating RM generalization using a large, unlabeled, open-domain prompt pool. PMDC actively selects prompt--response pairs that maximize disagreement between two RMs, yielding a compact set of highly contentious test cases. These cases are adjudicated by an oracle, and the resulting outcomes are aggregated via a Bradley--Terry model to produce a global ranking and pairwise win-rate landscape of RMs. We apply PMDC to re-evaluate 10 representative RMs and observe substantial rank reshuffling compared with conventional benchmarks. Qualitative analyses further uncover systematic generalization failures, providing valuable insights for improving reward modeling.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.