도메인 적응형 보상 모델링을 위한 데이터 기반 추론 평가 기준 자동 생성
Generating Data-Driven Reasoning Rubrics for Domain-Adaptive Reward Modeling
대규모 언어 모델(LLM)을 추론 결과 검증에 활용하는 데 있어 어려움이 있는데, LLM은 특히 긴 결과, 전문 지식이 필요한 분야, 그리고 검증 가능한 보상이 없는 문제에서 사고 과정을 정확하게 파악하는 데 어려움을 겪습니다. 본 연구에서는 LLM 기반 오류 감지 능력을 향상시키기 위해 데이터 기반 접근 방식을 사용하여 세분화된 추론 오류 분류 체계를 자동으로 구축하는 방법을 제안합니다. 실험 결과, 제안하는 오류 분류 체계(이하 '평가 기준')를 활용한 분류 방식은 코딩, 수학, 화학 공학 등 기술 분야에서 기존 방법보다 오류 식별 성능이 우수함을 보여주었습니다. 이러한 평가 기준은 강화 학습을 통해 추론 모델을 훈련하는 데 사용될 수 있는 더 강력한 LLM 기반 보상 함수를 구축하는 데 활용될 수 있습니다. 실험 결과는 제안하는 보상 함수가 일반적인 LLM 기반 보상 함수를 사용하여 훈련된 모델보다 어려운 분야에서 모델의 작업 정확도를 최대 +45% 향상시킬 수 있으며, 검증 가능한 보상을 사용하여 훈련된 모델의 성능에 근접할 수 있음을 보여줍니다. 또한, 제안하는 방법은 평가 기준을 모델의 질적 행동 평가에서 모델의 정량적 정확성 평가로 확장하여, 일반적으로 RLVR 보상을 통해 학습되는 작업에 대해 모델이 완전한 레이블 데이터 세트 없이 복잡한 기술 문제를 해결하도록 훈련할 수 있는 가능성을 열어줍니다. 이러한 완전한 레이블 데이터 세트는 일반적으로 획득하는 데 많은 비용이 소요됩니다.
An impediment to using Large Language Models (LLMs) for reasoning output verification is that LLMs struggle to reliably identify errors in thinking traces, particularly in long outputs, domains requiring expert knowledge, and problems without verifiable rewards. We propose a data-driven approach to automatically construct highly granular reasoning error taxonomies to enhance LLM-driven error detection on unseen reasoning traces. Our findings indicate that classification approaches that leverage these error taxonomies, or "rubrics", demonstrate strong error identification compared to baseline methods in technical domains like coding, math, and chemical engineering. These rubrics can be used to build stronger LLM-as-judge reward functions for reasoning model training via reinforcement learning. Experimental results show that these rewards have the potential to improve models' task accuracy on difficult domains over models trained by general LLMs-as-judges by +45%, and approach performance of models trained by verifiable rewards while using as little as 20% as many gold labels. Through our approach, we extend the usage of reward rubrics from assessing qualitative model behavior to assessing quantitative model correctness on tasks typically learned via RLVR rewards. This extension opens the door for teaching models to solve complex technical problems without a full dataset of gold labels, which are often highly costly to procure.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.