참조 자료가 검증 불가능한 영역에서 LLM 정렬을 향상시킨다
References Improve LLM Alignment in Non-Verifiable Domains
강화 학습을 통한 검증 가능한 보상(RLVR)은 추론 작업에서 강력한 효과를 보여주었지만, LLM 정렬과 같이 ground-truth 검증기가 없는 검증 불가능한 영역에는 직접 적용하기 어렵습니다. 본 연구에서는 참조 기반 LLM 평가기가 소프트한 "검증기" 역할을 함으로써 이러한 간극을 해소할 수 있는지 조사합니다. 먼저, 참조 출력을 활용하여 LLM 기반 평가기를 LLM 정렬에 활용하도록 설계된 평가 프로토콜을 개발했습니다. 종합적인 실험을 통해, 최첨단 모델의 참조를 활용하는 방식이 성능이 낮은 LLM 평가기의 정확성을 크게 향상시킨다는 것을 보여줍니다. 또한, 고품질(즉, 인간이 작성한) 참조는 더 강력한 LLM 평가기를 향상시키는 데에도 도움이 됩니다. 이러한 개선된 평가기를 바탕으로, 본 연구는 참조를 활용한 정렬 튜닝의 유용성을 입증합니다. 참조를 활용하여 훈련된 LLM이 자체 개선을 위한 평가기로 사용됩니다. 실험 결과, 참조 기반의 자체 개선은 참조 출력에 대한 직접적인 지도 학습(SFT)과 참조가 없는 평가기를 사용한 자체 개선보다 명확한 성능 향상을 가져다주며, ArmoRM과 같은 강력한 파인튜닝된 보상 모델을 사용하여 훈련했을 때와 유사한 성능을 달성합니다. 구체적으로, Llama-3-8B-Instruct 모델의 경우 AlpacaEval에서 73.1%, Arena-Hard에서 58.7%의 성능을, Qwen2.5-7B 모델의 경우 AlpacaEval에서 70.0%, Arena-Hard에서 74.1%의 성능을 보였으며, 이는 참조가 없는 자체 개선에 비해 AlpacaEval/Arena-Hard에서 각각 +20.2/+17.1점, SFT에 대한 증류에 비해 +5.3/+3.6점의 평균적인 성능 향상을 의미합니다. 이러한 결과는 참조 기반 LLM 평가기를 활용하여 검증 불가능한 영역에서 효과적인 LLM 후속 훈련을 가능하게 할 수 있는 잠재력을 보여줍니다.
While Reinforcement Learning with Verifiable Rewards (RLVR) has shown strong effectiveness in reasoning tasks, it cannot be directly applied to non-verifiable domains lacking ground-truth verifiers, such as LLM alignment. In this work, we investigate whether reference-guided LLM-evaluators can bridge this gap by serving as soft "verifiers". First, we design evaluation protocols that enhance LLM-based evaluators for LLM alignment using reference outputs. Through comprehensive experiments, we show that a reference-guided approach substantially improves the accuracy of less capable LLM-judges using references from frontier models; stronger LLM-judges can also be enhanced by high-quality (i.e., human-written) references. Building on these improved judges, we demonstrate the utility of high-quality references in alignment tuning, where LLMs guided with references are used as judges to self-improve. We show that reference-guided self-improvement yields clear gains over both direct SFT on reference outputs and self-improvement with reference-free judges, achieving performance comparable to training with ArmoRM, a strong finetuned reward model. Specifically, our method achieves 73.1% and 58.7% on AlpacaEval and Arena-Hard with Llama-3-8B-Instruct, and 70.0% and 74.1% with Qwen2.5-7B, corresponding to average absolute gains of +20.2 / +17.1 points over SFT distillation and +5.3 / +3.6 points over reference-free self-improvement on AlpacaEval / Arena-Hard. These results highlight the potential of using reference-guided LLM-evaluators to enable effective LLM post-training in non-verifiable domains.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.