RubricBench: 모델 생성 루브릭을 인간 기준과 일치시키는 방법
RubricBench: Aligning Model-Generated Rubrics with Human Standards
대규모 언어 모델(LLM)의 정렬 기술이 단순한 완성 작업에서 복잡하고 정교한 생성 작업으로 발전함에 따라, 보상 모델은 표면적인 편향을 완화하기 위해 루브릭 기반 평가로 점점 더 많이 활용되고 있습니다. 그러나 이 평가 패러다임을 평가하기 위한 통합 벤치마크가 부족하며, 기존 벤치마크는 엄격한 분석에 필요한 차별적인 복잡성과 정확한 루브릭 주석이 부족합니다. 이러한 격차를 해소하기 위해, 우리는 루브릭 기반 평가의 신뢰성을 평가하기 위해 특별히 설계된 1,147개의 쌍대 비교 데이터로 구성된 큐레이션된 벤치마크인 RubricBench를 소개합니다. 저희는 미묘한 입력 복잡성과 오해를 불러일으키는 표면적 편향을 특징으로 하는 어려운 샘플을 목표로 하는 다차원 필터링 파이프라인을 사용하여 데이터를 구성하고, 각 샘플에 지침에서 엄격하게 파생된 전문가가 주석을 단, 세분화된 루브릭을 추가했습니다. 종합적인 실험 결과, 인간이 주석을 단 루브릭과 모델이 생성한 루브릭 간에 상당한 격차가 있음을 보여주며, 이는 최첨단 모델조차 유효한 평가 기준을 자율적으로 명시하는 데 어려움을 겪으며, 인간의 지시에 따른 성능에 크게 뒤쳐지는 것을 나타냅니다.
As Large Language Model (LLM) alignment evolves from simple completions to complex, highly sophisticated generation, Reward Models are increasingly shifting toward rubric-guided evaluation to mitigate surface-level biases. However, the community lacks a unified benchmark to assess this evaluation paradigm, as existing benchmarks lack both the discriminative complexity and the ground-truth rubric annotations required for rigorous analysis. To bridge this gap, we introduce RubricBench, a curated benchmark with 1,147 pairwise comparisons specifically designed to assess the reliability of rubric-based evaluation. Our construction employs a multi-dimensional filtration pipeline to target hard samples featuring nuanced input complexity and misleading surface bias, augmenting each with expert-annotated, atomic rubrics derived strictly from instructions. Comprehensive experiments reveal a substantial capability gap between human-annotated and model-generated rubrics, indicating that even state-of-the-art models struggle to autonomously specify valid evaluation criteria, lagging considerably behind human-guided performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.