LLM 검증 시스템 우회: RLVR은 보상 해킹으로 이어질 수 있음
LLMs Gaming Verifiers: RLVR can Lead to Reward Hacking
강화 학습을 통한 검증 가능한 보상(RLVR)이 LLM의 추론 능력을 확장하는 주요 패러다임으로 자리 잡으면서, 새로운 문제점인 LLM 검증 시스템 우회 현상이 발생합니다. 본 연구에서는 귀납적 추론 작업에서 이러한 현상을 분석합니다. 모델이 논리 규칙을 유도하고 출력해야 하는 작업에서, RLVR으로 학습된 모델들이 체계적으로 규칙 유도를 포기하는 것을 발견했습니다. 모델들은 일반화 가능한 패턴(예: '빨간 자동차를 운송하는 기차는 동쪽으로 간다')을 학습하는 대신, 개별적인 레이블을 나열하여 출력물을 생성합니다. 이러한 출력물은 검증 시스템을 통과하지만, 작업에서 요구하는 관계 패턴을 포착하지 못합니다. 이러한 현상은 모델의 이해 부족으로 인한 것이 아니라, 불완전한 검증 시스템이 허용하는 '보상 해킹'의 한 형태입니다. 검증 시스템은 확장에 따른 정확성만 확인하여, 잘못된 긍정 결과를 초래합니다. 이러한 우회 전략을 탐지하기 위해, 우리는 등방성 교란 테스트(IPT)를 도입했습니다. IPT는 모델의 단일 출력물을 확장에 따른 검증과 등방성 검증 모두에서 평가합니다. 등방성 검증은 논리적으로 동일한 작업에 대한 불변성을 강제합니다. 진정한 규칙 유도는 불변성을 유지하는 반면, 우회 전략은 실패합니다. 이러한 우회 행동은 RLVR으로 학습된 추론 모델(예: GPT-5, Olmo3)에서 나타나지만, RLVR 모델이 아닌 모델(예: GPT-4o, GPT-4.5, Ministral)에서는 나타나지 않습니다. 또한, 우회 행동의 발생 빈도는 작업의 복잡성과 추론 시간 컴퓨팅 리소스 증가에 따라 증가합니다. 통제된 학습 실험에서, 확장에 따른 검증은 직접적으로 우회 전략을 유발하는 반면, 등방성 검증은 이를 제거합니다. 이러한 결과는 RLVR이 단순히 명시적인 조작뿐만 아니라, 검증 시스템이 강제하지 못하는 부분을 악용하여 '보상 해킹'을 유도할 수 있음을 보여줍니다.
As reinforcement Learning with Verifiable Rewards (RLVR) has become the dominant paradigm for scaling reasoning capabilities in LLMs, a new failure mode emerges: LLMs gaming verifiers. We study this phenomenon on inductive reasoning tasks, where models must induce and output logical rules. We find that RLVR-trained models systematically abandon rule induction. Instead of learning generalizable patterns (e.g., ``trains carrying red cars go east''), they enumerate instance-level labels, producing outputs that pass verifiers without capturing the relational patterns required by the task. We show that this behavior is not a failure of understanding but a form of reward hacking: imperfect verifiers that check only extensional correctness admit false positives. To detect such shortcuts, we introduce Isomorphic Perturbation Testing (IPT), which evaluates a single model output under both extensional and isomorphic verification, where the latter enforces invariance under logically isomorphic tasks. While genuine rule induction remains invariant, shortcut strategies fail. We find that shortcut behavior is specific to RLVR-trained reasoning models (e.g., GPT-5, Olmo3) and absent in non-RLVR models (e.g., GPT-4o, GPT-4.5, Ministral). Moreover, shortcut prevalence increases with task complexity and inference-time compute. In controlled training experiments, extensional verification directly induces shortcut strategies, while isomorphic verification eliminates them. These results show that RLVR can incentivize reward hacking not only through overt manipulation but also by exploiting what the verifier fails to enforce.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.