2603.10588v1 Mar 11, 2026 cs.AI

LLM 정렬에 정말로 다양성이 필요한가? 도덕적 추론을 위한 RLVR 방법 적용에 대한 실증적 연구

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

Xiaoyuan Yi
Xiaoyuan Yi
Citations: 382
h-index: 11
Zhaowei Zhang
Zhaowei Zhang
Citations: 8
h-index: 1
Xiaohan Liu
Xiaohan Liu
Citations: 12
h-index: 2
Xue-Peng Zhu
Xue-Peng Zhu
Citations: 11
h-index: 1
Zhiyuan Feng
Zhiyuan Feng
Citations: 32
h-index: 3
Yaodong Yang
Yaodong Yang
Citations: 12
h-index: 2
Xing Xie
Xing Xie
Citations: 153
h-index: 7
Junchao Huang
Junchao Huang
Citations: 0
h-index: 0
Ceyao Zhang
Ceyao Zhang
Citations: 67
h-index: 2

검증 가능한 보상을 활용한 강화 학습(RLVR)은 논리적 추론 과제에서 뛰어난 성과를 거두었지만, 대규모 언어 모델(LLM) 정렬에 근본적으로 다른 접근 방식이 필요한지 여부는 아직 불분명합니다. 도덕적 추론에서는 여러 개의 유효한 답변이 허용되는 것으로 보이는 점을 고려할 때, 자연스러운 가설은 정렬 작업이 보상 극대화 정책 기반 방법보다는 다양성을 추구하는 분포 매칭 알고리즘을 내재적으로 필요로 한다는 것입니다. 우리는 MoReBench 데이터셋을 사용하여 두 가지 패러다임을 비교하는 최초의 포괄적인 실증 연구를 수행했습니다. 안정적인 RLVR 학습을 위해, Qwen3-1.7B 모델을 학습시켜 채점 기준에 기반한 보상 파이프라인을 구축했습니다. 우리의 가설과는 달리, 우리는 분포 매칭 방식이 정렬 작업에서 예상만큼 보상 극대화 방법에 비해 뚜렷한 장점을 보이지 않는다는 것을 발견했습니다. 의미 공간에 매핑된 높은 보상 답변의 의미론적 시각화를 통해, 도덕적 추론이 수학적 추론보다 더 집중된 높은 보상 분포를 나타냄을 보여줍니다. 다양한 해결 전략이 유사하게 높은 보상을 얻는 반면, 도덕적 추론은 더 좁은 범위의 답변이 높은 보상을 받는 경향이 있습니다. 이 예상 밖의 결과는 왜 모드 탐색 최적화가 정렬 작업에 대해 동일하거나 더 효과적인지 설명합니다. 우리의 결과는 정렬 작업이 내재적으로 다양성을 보존하는 알고리즘을 필요로 하지 않으며, 표준 보상 극대화 RLVR 방법이 명시적인 다양성 메커니즘 없이도 효과적으로 도덕적 추론에 적용될 수 있음을 시사합니다.

Original Abstract

Reinforcement learning with verifiable rewards (RLVR) has achieved remarkable success in logical reasoning tasks, yet whether large language model (LLM) alignment requires fundamentally different approaches remains unclear. Given the apparent tolerance for multiple valid responses in moral reasoning, a natural hypothesis is that alignment tasks inherently require diversity-seeking distribution-matching algorithms rather than reward-maximizing policy-based methods. We conduct the first comprehensive empirical study comparing both paradigms on MoReBench. To enable stable RLVR training, we build a rubric-grounded reward pipeline by training a Qwen3-1.7B judge model. Contrary to our hypothesis, we find that distribution-matching approaches do not demonstrate significant advantages over reward-maximizing methods as expected on alignment tasks. Through semantic visualization mapping high-reward responses to semantic space, we demonstrate that moral reasoning exhibits more concentrated high-reward distributions than mathematical reasoning, where diverse solution strategies yield similarly high rewards. This counter-intuitive finding explains why mode-seeking optimization proves equally or more effective for alignment tasks. Our results suggest that alignment tasks do not inherently require diversity-preserving algorithms, and standard reward-maximizing RLVR methods can effectively transfer to moral reasoning without explicit diversity mechanisms.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!