RIFT: 루브릭 오류 모드 분류 체계 및 자동 진단 시스템
RIFT: A RubrIc Failure Mode Taxonomy and Automated Diagnostics
루브릭 기반 평가는 개방형이며 검증하기 어려운 작업에 대한 LLM 벤치마크 및 학습 파이프라인에서 널리 사용됩니다. 기존 연구에서는 강화 학습 결과와 같은 하위 단계 신호를 사용하여 루브릭의 효과를 입증했지만, 집계되거나 하위 단계 신호만으로는 루브릭 품질 문제를 체계적으로 진단할 수 있는 방법은 아직 존재하지 않습니다. 이러한 격차를 해결하기 위해, 우리는 RIFT(RubrIc Failure mode Taxonomy)를 제안합니다. RIFT는 루브릭 구성 및 설계에서 발생하는 오류 모드를 체계적으로 분류하는 분류 체계입니다. RIFT는 신뢰성 오류, 내용 타당성 오류 및 결과 타당성 오류의 세 가지 상위 범주로 구성된 8가지 오류 모드로 구성됩니다. RIFT는 일반적인 지시 따르기, 코드 생성, 창의적 글쓰기 및 전문가 수준의 심층 연구를 포함하는 5개의 다양한 벤치마크에서 추출한 루브릭을 반복적으로 주석 처리하여 근거 이론을 기반으로 개발되었습니다. 분류 체계의 일관성은 독립적인 인간 주석자 간의 합의를 측정하여 평가했으며, 전반적으로 양호한 합의(87%의 쌍별 합의 및 평균 Cohen's kappa 0.64)를 보였습니다. 마지막으로, 확장 가능한 진단을 지원하기 위해 자동 루브릭 품질 지표를 제안하고, 이러한 지표가 인간 주석자による 오류 모드 주석과 일치하며 최대 0.86의 F1 값을 달성하는 것을 확인했습니다.
Rubric-based evaluation is widely used in LLM benchmarks and training pipelines for open-ended, less verifiable tasks. While prior work has demonstrated the effectiveness of rubrics using downstream signals such as reinforcement learning outcomes, there remains no principled way to diagnose rubric quality issues from such aggregated or downstream signals alone. To address this gap, we introduce RIFT: RubrIc Failure mode Taxonomy, a taxonomy for systematically characterizing failure modes in rubric composition and design. RIFT consists of eight failure modes organized into three high-level categories: Reliability Failures, Content Validity Failures, and Consequential Validity Failures. RIFT is developed using grounded theory by iteratively annotating rubrics drawn from five diverse benchmarks spanning general instruction following, code generation, creative writing, and expert-level deep research, until no new failure modes are identified. We evaluate the consistency of the taxonomy by measuring agreement among independent human annotators, observing fair agreement overall (87% pairwise agreement and 0.64 average Cohen's kappa). Finally, to support scalable diagnosis, we propose automated rubric quality metrics and show that they align with human failure-mode annotations, achieving up to 0.86 F1.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.