긴 문맥 추론을 위한 보상 공진화 기반 증거 증강 정책 최적화
Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning
강화학습(RL)은 거대 언어 모델(LLM)의 추론 능력을 발전시켰지만, 결과 보상의 희소성 문제로 인해 긴 문맥 시나리오에 적용하는 데에는 어려움이 있습니다. 이러한 한계는 근거 없는 "운 좋은 추측"을 억제하지 못하며, "건초더미에서 바늘 찾기(needle-in-a-haystack)"와 같이 중요한 증거 검색 과정을 대부분 감독되지 않은 상태로 방치합니다. 이를 해결하기 위해 본 논문에서는 EAPO(증거 증강 정책 최적화)를 제안합니다. 먼저 증거 증강 추론 패러다임을 정립하고, 트리 구조 증거 샘플링을 통해 정밀한 증거 추출이 긴 문맥 추론의 결정적인 병목점임을 검증했습니다. 이러한 통찰을 바탕으로 EAPO는 보상 모델이 '그룹 상대적 증거 보상'을 계산하여 증거 품질을 명시적으로 개선하는 밀도 높은 과정 감독을 제공하는 특화된 RL 알고리즘을 도입합니다. 또한 훈련 전반에 걸쳐 정확한 감독을 유지하기 위해 '적응형 보상-정책 공진화' 메커니즘을 통합했습니다. 이 메커니즘은 결과와 일치하는 롤아웃을 사용하여 보상 모델을 반복적으로 개선하고, 판별 능력을 강화하여 정밀한 과정 지도를 보장합니다. 8개 벤치마크에 대한 포괄적인 평가 결과, EAPO가 최신(SOTA) 베이스라인 대비 긴 문맥 추론 성능을 획기적으로 향상시키는 것으로 나타났습니다.
While Reinforcement Learning (RL) has advanced LLM reasoning, applying it to long-context scenarios is hindered by sparsity of outcome rewards. This limitation fails to penalize ungrounded "lucky guesses," leaving the critical process of needle-in-a-haystack evidence retrieval largely unsupervised. To address this, we propose EAPO (Evidence-Augmented Policy Optimization). We first establish the Evidence-Augmented Reasoning paradigm, validating via Tree-Structured Evidence Sampling that precise evidence extraction is the decisive bottleneck for long-context reasoning. Guided by this insight, EAPO introduces a specialized RL algorithm where a reward model computes a Group-Relative Evidence Reward, providing dense process supervision to explicitly improve evidence quality. To sustain accurate supervision throughout training, we further incorporate an Adaptive Reward-Policy Co-Evolution mechanism. This mechanism iteratively refines the reward model using outcome-consistent rollouts, sharpening its discriminative capability to ensure precise process guidance. Comprehensive evaluations across eight benchmarks demonstrate that EAPO significantly enhances long-context reasoning performance compared to SOTA baselines.
AI Analysis
Korean Summary
Key Innovations
- EAR(Evidence-Augmented Reasoning) 패러다임: 분석-증거추출-추론으로 이어지는 명시적 4단계 워크플로우 정립
- EAPO(Evidence-Augmented Policy Optimization): 희소한 결과 보상 대신 증거 품질에 대한 밀집된 과정 보상(Process Reward) 제공
- 그룹 상대적 증거 품질(Group-Relative Evidence Quality) 보상: 보상 모델을 이용해 추출된 증거의 효용성을 평가
- 적응형 보상-정책 공진화(Adaptive Reward-Policy Co-Evolution): 정책 모델이 생성한 고신뢰도 데이터를 활용해 보상 모델을 반복적으로 미세 조정(RFT)하여 평가 성능 저하 방지
Learning & Inference Impact
학습 과정에서는 정답 여부뿐만 아니라 증거 추출의 품질에 대한 세밀한 보상을 제공함으로써, 모델이 '운 좋게 맞히는' 경우를 배제하고 실질적인 추론 능력을 기르도록 가속화합니다. 특히 보상 모델의 공진화 전략은 학습이 진행됨에 따라 더 정교한 피드백을 가능하게 하여 성능 수렴 속도와 최종 성능 천장을 모두 높입니다. 추론 시에는 모델이 내부적으로 분석(<analysis>), 증거 추출(<evidence>), 추론(<reasoning>) 단계를 명시적으로 출력하게 되어, 긴 문맥 속에서 정확한 정보를 찾아내는 능력(Needle-in-a-haystack)이 강화되고 답변의 설명 가능성과 신뢰도가 크게 향상됩니다.
Technical Difficulty
Estimated implementation complexity based on methodology.