IG-Search: 검색 증강 추론을 위한 단계별 정보 획득 보상
IG-Search: Step-Level Information Gain Rewards for Search-Augmented Reasoning
강화 학습은 대규모 언어 모델을 학습시켜 검색 증강 추론을 수행하도록 하는 효과적인 패러다임으로 부상했습니다. 그러나 기존 접근 방식은 롤아웃 그룹 내의 정확한 검색 쿼리와 모호하거나 중복된 쿼리를 구별할 수 없는 경로 수준의 보상에 의존하며, 샘플링된 모든 경로가 실패할 때마다 거의 0에 가까운 기울기 신호로 수렴합니다. 본 논문에서는 정보 획득(IG)을 기반으로 하는 단계별 보상을 도입하는 강화 학습 프레임워크인 IG-Search를 제안합니다. 각 검색 단계에서 IG는 검색된 문서가 무작위 문서의 반사실적 기준과 비교하여 모델의 정답에 대한 신뢰도를 얼마나 향상시키는지 측정하여, 기본 검색 쿼리의 효과성을 반영합니다. 이 신호는 GRPO의 토큰별 이점 조절을 통해 해당 검색 쿼리 토큰으로 피드백되어 롤아웃 내에서 세밀한 단계별 신용 할당을 가능하게 합니다. 기존의 단계별 방법과 달리, IG-Search는 외부적으로 주석이 달린 중간 감독이나 경로 간의 공유된 환경 상태를 필요로 하지 않으며, 표준 질문-답변 쌍 외의 중간 주석이 필요하지 않습니다. 7개의 단일 홉 및 다중 홉 질의 응답 벤치마크에 대한 실험 결과, IG-Search는 Qwen2.5-3B 모델을 사용하여 평균 0.430의 EM 값을 달성했으며, 이는 가장 강력한 경로 수준 기준(MR-Search)보다 평균 1.6점, 단계별 방법인 GiGPO보다 평균 0.9점 더 높은 성능을 나타냅니다. 특히 다중 홉 추론 작업에서 두드러진 성능 향상을 보였습니다. IG-Search는 밀집된 단계별 신호를 도입하지만, 경로 수준 기준에 비해 단계별 학습에 필요한 총 시간을 약 6.4%만 추가하고, 추론 지연 시간은 변경하지 않으면서, 모든 샘플링된 경로가 정답을 잘못 제공하는 경우에도 의미 있는 기울기 신호를 제공합니다.
Reinforcement learning has emerged as an effective paradigm for training large language models to perform search-augmented reasoning. However, existing approaches rely on trajectory-level rewards that cannot distinguish precise search queries from vague or redundant ones within a rollout group, and collapse to a near-zero gradient signal whenever every sampled trajectory fails. In this paper, we propose IG-Search, a reinforcement learning framework that introduces a step-level reward based on Information Gain (IG). For each search step, IG measures how much the retrieved documents improve the model's confidence in the gold answer relative to a counterfactual baseline of random documents, thereby reflecting the effectiveness of the underlying search query. This signal is fed back to the corresponding search-query tokens via per-token advantage modulation in GRPO, enabling fine-grained, step-level credit assignment within a rollout. Unlike prior step-level methods that require either externally annotated intermediate supervision or shared environment states across trajectories, IG-Search derives its signals from the policy's own generation probabilities, requiring no intermediate annotations beyond standard question-answer pairs. Experiments on seven single-hop and multi-hop QA benchmarks demonstrate that IG-Search achieves an average EM of 0.430 with Qwen2.5-3B, outperforming the strongest trajectory-level baseline (MR-Search) by 1.6 points and the step-level method GiGPO by 0.9 points on average across benchmarks, with particularly pronounced gains on multi-hop reasoning tasks. Despite introducing a dense step-level signal, IG-Search adds only ~6.4% to per-step training wall-clock time over the trajectory-level baseline and leaves inference latency unchanged, while still providing a meaningful gradient signal even when every sampled trajectory answers incorrectly.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.