개방형 작업에 대한 LLM 평가 및 보상 모델링 개선을 위한 루브릭 생성 방식 재고
Rethinking Rubric Generation for Improving LLM Judge and Reward Modeling for Open-ended Tasks
최근 루브릭은 LLM 평가 모델이 주관적이고 미묘하며 다차원적인 인간 선호도를 파악하도록 안내하는 데 사용되어 왔으며, 강화 학습 미세 조정(RFT)을 위한 평가에서 보상 신호로 확장되었습니다. 그러나 루브릭 생성은 여전히 제어하기 어렵습니다. 루브릭은 종종 충분한 범위를 포괄하지 못하고, 차원을 혼동시키며, 선호 방향을 잘못 정렬하고, 중복되거나 높은 상관관계를 가진 기준을 포함하여 평가 모델의 정확도를 저하시키고 RFT 과정에서 최적의 보상을 생성하지 못합니다. 본 논문에서는 재귀적 분해-필터링 주기를 기반으로 한 루브릭 개선을 위한 체계적인 프레임워크인 RRD를 제안합니다. RRD는 대략적인 루브릭을 세분화된, 구별력이 있는 기준으로 분해하여, 답변 간의 구분을 명확히 하면서 전체 범위를 확장합니다. 보완적인 필터링 메커니즘은 잘못 정렬되고 중복된 루브릭을 제거하며, 상관관계를 고려한 가중치 부여 방식은 높은 상관관계를 가진 기준이 과도하게 반영되는 것을 방지하여, 유익하고 포괄적이며 중복되지 않는 루브릭 세트를 생성합니다. 실험 결과, RRD는 평가 및 학습 모두에서 상당하고 일관된 성능 향상을 가져왔습니다. RRD는 GPT-4o 및 Llama3.1-405B 평가 모델 모두에서 JudgeBench 및 PPE에서의 선호도 판단 정확도를 향상시켜 모든 환경에서 최상의 성능을 달성했으며, 최대 +17.7점의 향상을 보였습니다. WildChat에서 RFT의 보상원으로 사용될 때, RRD는 기존 루브릭 기반 방식에 비해 훨씬 강력하고 안정적인 학습 신호를 제공하여, Qwen3-4B 모델의 경우 최대 160%, Llama3.1-8B 모델의 경우 최대 60%의 보상 향상을 보였으며, 이러한 성능 향상은 HealthBench-Hard 및 BiGGen Bench에서도 나타났습니다. 전반적으로, RRD는 개방형 영역에서 LLM 평가 및 보상 모델링을 위한 확장 가능하고 해석 가능한 기반으로 재귀적 루브릭 개선을 확립합니다.
Recently, rubrics have been used to guide LLM judges in capturing subjective, nuanced, multi-dimensional human preferences, and have been extended from evaluation to reward signals for reinforcement fine-tuning (RFT). However, rubric generation remains hard to control: rubrics often lack coverage, conflate dimensions, misalign preference direction, and contain redundant or highly correlated criteria, degrading judge accuracy and producing suboptimal rewards during RFT. We propose RRD, a principled framework for rubric refinement built on a recursive decompose-filter cycle. RRD decomposes coarse rubrics into fine-grained, discriminative criteria, expanding coverage while sharpening separation between responses. A complementary filtering mechanism removes misaligned and redundant rubrics, and a correlation-aware weighting scheme prevents over-representing highly correlated criteria, yielding rubric sets that are informative, comprehensive, and non-redundant. Empirically, RRD delivers large, consistent gains across both evaluation and training: it improves preference-judgment accuracy on JudgeBench and PPE for both GPT-4o and Llama3.1-405B judges, achieving top performance in all settings with up to +17.7 points on JudgeBench. When used as the reward source for RFT on WildChat, it yields substantially stronger and more stable learning signals, boosting reward by up to 160% (Qwen3-4B) and 60% (Llama3.1-8B) versus 10-20% for prior rubric baselines, with gains that transfer to HealthBench-Hard and BiGGen Bench. Overall, RRD establishes recursive rubric refinement as a scalable and interpretable foundation for LLM judging and reward modeling in open-ended domains.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.