정확성만으로는 충분하지 않다: 실행자 기반 보상을 활용한 추론 계획기 훈련
Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards
검증 가능한 보상을 활용한 강화 학습은 대규모 언어 모델의 명시적인 추론 능력을 향상시키는 일반적인 방법이 되었지만, 최종 답변의 정확성만으로는 추론 과정이 얼마나 충실하고 신뢰할 수 있으며, 모델이 활용하는 데 유용한지 알 수 없습니다. 이러한 결과 중심적인 신호는 잘못된 이유로도 정답을 도출하는 추론 과정을 강화하고, 단축 경로를 통해 추론의 효과를 과장하며, 다단계 시스템에서 결함이 있는 중간 상태를 전파할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 추론을 소비 가능한 중간 결과물로 취급하는 계획기-실행자 훈련 프레임워크인 TraceLift를 제안합니다. 계획기 훈련 과정에서, 계획기는 태깅된 추론 과정을 생성합니다. 고정된 실행자는 이 추론 과정을 최종 결과물로 변환하여 검증기의 피드백을 받습니다. 또한, 실행자 기반 보상은 추론 과정 자체를 개선하도록 설계되었으며, 이는 rubic 기반의 추론 보상 모델(RM) 점수에 동일한 고정된 실행자에 대한 측정된 성능 향상분을 곱하여, 고품질이며 유용한 추론 과정을 장려합니다. 추론 품질을 직접적으로 학습할 수 있도록, 우리는 수학 및 코딩 문제들을 기반으로 구축된, rubic 주석이 달린 추론 데이터셋인 TRACELIFT-GROUPS를 소개합니다. 각 예제는 동일한 문제 그룹으로 구성되며, 여기에는 고품질의 참조 추론 과정과 함께, 추론 품질 또는 해결 지원을 저하시키는 동시에 작업과의 관련성을 유지하는 여러 가지 가능한 결함 추론 과정이 포함됩니다. 코딩 및 수학 벤치마크에 대한 광범위한 실험 결과, 이러한 실행자 기반 추론 보상은 실행만 수행하는 훈련 방식보다 두 단계의 계획기-실행자 시스템을 개선하는 것으로 나타났습니다. 이는 추론의 감독 학습이 단순히 추론 과정이 '좋아 보이는지' 평가하는 것뿐만 아니라, 모델이 이를 활용하는 데 얼마나 도움이 되는지를 평가해야 함을 시사합니다.
Reinforcement learning with verifiable rewards has become a common way to improve explicit reasoning in large language models, but final-answer correctness alone does not reveal whether the reasoning trace is faithful, reliable, or useful to the model that consumes it. This outcome-only signal can reinforce traces that are right for the wrong reasons, overstate reasoning gains by rewarding shortcuts, and propagate flawed intermediate states in multi-step systems. To this end, we propose TraceLift, a planner-executor training framework that treats reasoning as a consumable intermediate artifact. During planner training, the planner emits tagged reasoning. A frozen executor turns this reasoning into the final artifact for verifier feedback, while an executor-grounded reward shapes the intermediate trace. This reward multiplies a rubric-based Reasoning Reward Model (RM) score by measured uplift on the same frozen executor, crediting traces that are both high-quality and useful. To make reasoning quality directly learnable, we introduce TRACELIFT-GROUPS, a rubric-annotated reason-only dataset built from math and code seed problems. Each example is a same-problem group containing a high-quality reference trace and multiple plausible flawed traces with localized perturbations that reduce reasoning quality or solution support while preserving task relevance. Extensive experiments on code and math benchmarks show that this executor-grounded reasoning reward improves the two-stage planner-executor system over execution-only training, suggesting that reasoning supervision should evaluate not only whether a trace looks good, but also whether it helps the model that consumes it.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.