ProRAG: 검색 증강 생성을 위한 과정 감독 강화 학습
ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation
강화 학습(RL)은 복잡한 추론 작업에서 검색 증강 생성(RAG)을 최적화하기 위한 유망한 패러다임으로 부상했습니다. 그러나 전통적인 결과 기반 RL 접근 방식은 포괄적인 스칼라 보상이 긴 궤적 내의 구체적인 오류 단계를 식별하지 못하기 때문에 보상 희소성과 비효율적인 기여도 분배(credit assignment) 문제를 겪는 경우가 많습니다. 이러한 모호성은 모델이 결함이 있는 논리나 불필요한 검색 단계를 통해 정답에 도달하는 '과정 환각(process hallucinations)'을 빈번하게 유발합니다. 최근의 과정 인식 접근 방식들이 정적 선호도 학습이나 휴리스틱 보상 형성을 통해 이를 완화하려고 시도하지만, 전역 결과로부터 단계별 기여도를 분리하는 데 필요한 온-폴리시(on-policy) 탐색 능력이 부족한 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 학습된 단계별 감독을 온라인 최적화 루프에 통합하도록 설계된 과정 감독 강화 학습 프레임워크인 ProRAG를 제안합니다. 우리의 프레임워크는 4단계로 구성됩니다: (1) 구조화된 추론 형식으로 모델을 초기화하기 위한 지도 정책 웜업(Warmup); (2) 중간 추론 품질을 정량화하기 위한 MCTS 기반 과정 보상 모델(PRM) 구축; (3) 미세한 과정 선호도에 정책을 정렬하기 위한 PRM 유도 추론 정제; (4) 이중 세분화(dual-granularity) 어드밴티지 메커니즘을 적용한 과정 감독 강화 학습입니다. ProRAG는 단계별 과정 보상과 전역 결과 신호를 집계함으로써 모든 행동에 대해 정밀한 피드백을 제공합니다. 5가지 멀티홉 추론 벤치마크에 대한 광범위한 실험을 통해 ProRAG가 강력한 결과 기반 및 과정 인식 RL 베이스라인과 비교하여, 특히 복잡한 장기 작업에서 전반적으로 우수한 성능을 달성함을 입증하였으며, 이는 미세 입자 과정 감독의 효과를 확인시켜 줍니다. 코드와 모델은 https://github.com/lilinwz/ProRAG 에서 확인할 수 있습니다.
Reinforcement learning (RL) has become a promising paradigm for optimizing Retrieval-Augmented Generation (RAG) in complex reasoning tasks. However, traditional outcome-based RL approaches often suffer from reward sparsity and inefficient credit assignment, as coarse-grained scalar rewards fail to identify specific erroneous steps within long-horizon trajectories. This ambiguity frequently leads to "process hallucinations", where models reach correct answers through flawed logic or redundant retrieval steps. Although recent process-aware approaches attempt to mitigate this via static preference learning or heuristic reward shaping, they often lack the on-policy exploration capabilities required to decouple step-level credit from global outcomes. To address these challenges, we propose ProRAG, a process-supervised reinforcement learning framework designed to integrate learned step-level supervision into the online optimization loop. Our framework consists of four stages: (1) Supervised Policy Warmup to initialize the model with a structured reasoning format; (2) construction of an MCTS-based Process Reward Model (PRM) to quantify intermediate reasoning quality; (3) PRM-Guided Reasoning Refinement to align the policy with fine-grained process preferences; and (4) Process-Supervised Reinforcement Learning with a dual-granularity advantage mechanism. By aggregating step-level process rewards with global outcome signals, ProRAG provides precise feedback for every action. Extensive experiments on five multi-hop reasoning benchmarks demonstrate that ProRAG achieves superior overall performance compared to strong outcome-based and process-aware RL baselines, particularly on complex long-horizon tasks, validating the effectiveness of fine-grained process supervision. The code and model are available at https://github.com/lilinwz/ProRAG.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.