InT: 자가 제안 개입을 통한 LLM 추론에서의 기여도 할당 구현
InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning
결과 보상 강화학습(RL)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 효과적인 것으로 입증되었습니다. 그러나 표준 RL은 기여도를 오직 최종 답변 수준에서만 할당하므로, 결과가 틀릴 경우 전체 추론 경로에 페널티를 부여하고, 맞을 경우 모든 단계를 일률적으로 강화합니다. 그 결과, 실패한 경로에 포함된 올바른 중간 단계는 억제되고, 반대로 성공한 경로의 잘못된 단계는 강화될 수 있습니다. 우리는 이러한 실패 양상을 기여도 할당(credit assignment) 문제라고 지칭합니다. 이에 대한 자연스러운 해결책은 과정 보상 모델을 훈련하는 것이지만, 올바른 추론 단계를 식별하도록 해당 모델을 정확히 최적화하는 것은 여전히 어려운 과제입니다. 본 논문에서는 개입 훈련(Intervention Training, InT)을 소개합니다. 이는 모델이 궤적을 더 높은 보상으로 유도하는 짧고 목표 지향적인 수정을 제안함으로써, 자신의 추론 과정에 대해 세밀한 기여도 할당을 수행하는 훈련 패러다임입니다. 수학 추론 데이터셋에서 흔히 제공되는 참조 해답을 활용하고, 모델이 생성한 해답을 검증하는 것이 처음부터 정답을 생성하는 것보다 쉽다는 사실을 이용하여, 모델은 자신의 추론에서 첫 번째 오류를 식별하고 궤적을 정답으로 되돌리기 위한 단일 단계 개입을 제안합니다. 그 후 우리는 오류 발생 지점까지의 온-폴리시 롤아웃(on-policy rollout)과 해당 개입을 연결하여 지도 미세 조정(SFT)을 적용함으로써, 실패를 유발한 특정 단계로 오류를 국소화합니다. 실험 결과, 이렇게 생성된 모델은 RL 훈련을 위한 훨씬 더 나은 초기화 모델이 됨을 확인했습니다. InT와 후속 RL 미세 조정을 수행한 후, IMO-AnswerBench에서 4B 파라미터 베이스 모델 대비 정확도를 거의 14% 향상시켰으며, gpt-oss-20b와 같은 더 큰 오픈 소스 모델보다 우수한 성능을 달성했습니다.
Outcome-reward reinforcement learning (RL) has proven effective at improving the reasoning capabilities of large language models (LLMs). However, standard RL assigns credit only at the level of the final answer, penalizing entire reasoning traces when the outcome is incorrect and uniformly reinforcing all steps when it is correct. As a result, correct intermediate steps may be discouraged in failed traces, while spurious steps may be reinforced in successful ones. We refer to this failure mode as the problem of credit assignment. While a natural remedy is to train a process reward model, accurately optimizing such models to identify corrective reasoning steps remains challenging. We introduce Intervention Training (InT), a training paradigm in which the model performs fine-grained credit assignment on its own reasoning traces by proposing short, targeted corrections that steer trajectories toward higher reward. Using reference solutions commonly available in mathematical reasoning datasets and exploiting the fact that verifying a model-generated solution is easier than generating a correct one from scratch, the model identifies the first error in its reasoning and proposes a single-step intervention to redirect the trajectory toward the correct solution. We then apply supervised fine-tuning (SFT) to the on-policy rollout up to the point of error concatenated with the intervention, localizing error to the specific step that caused failure. We show that the resulting model serves as a far better initialization for RL training. After running InT and subsequent fine-tuning with RL, we improve accuracy by nearly 14% over a 4B-parameter base model on IMO-AnswerBench, outperforming larger open-source models such as gpt-oss-20b.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.