2601.10306v1 Jan 15, 2026 cs.AI

긴 문맥 추론을 위한 보상 공진화 기반 증거 증강 정책 최적화

Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning

Jingren Zhou

Citations: 11,837

h-index: 27

Xin Guan

Citations: 62

h-index: 3

Pengjun Xie

Citations: 930

h-index: 16

Zijian Li

Citations: 94

h-index: 5

Shen Huang

Alibaba Group

Citations: 774

h-index: 10

Jiuxin Cao

Citations: 1,518

h-index: 21

강화학습(RL)은 거대 언어 모델(LLM)의 추론 능력을 발전시켰지만, 결과 보상의 희소성 문제로 인해 긴 문맥 시나리오에 적용하는 데에는 어려움이 있습니다. 이러한 한계는 근거 없는 "운 좋은 추측"을 억제하지 못하며, "건초더미에서 바늘 찾기(needle-in-a-haystack)"와 같이 중요한 증거 검색 과정을 대부분 감독되지 않은 상태로 방치합니다. 이를 해결하기 위해 본 논문에서는 EAPO(증거 증강 정책 최적화)를 제안합니다. 먼저 증거 증강 추론 패러다임을 정립하고, 트리 구조 증거 샘플링을 통해 정밀한 증거 추출이 긴 문맥 추론의 결정적인 병목점임을 검증했습니다. 이러한 통찰을 바탕으로 EAPO는 보상 모델이 '그룹 상대적 증거 보상'을 계산하여 증거 품질을 명시적으로 개선하는 밀도 높은 과정 감독을 제공하는 특화된 RL 알고리즘을 도입합니다. 또한 훈련 전반에 걸쳐 정확한 감독을 유지하기 위해 '적응형 보상-정책 공진화' 메커니즘을 통합했습니다. 이 메커니즘은 결과와 일치하는 롤아웃을 사용하여 보상 모델을 반복적으로 개선하고, 판별 능력을 강화하여 정밀한 과정 지도를 보장합니다. 8개 벤치마크에 대한 포괄적인 평가 결과, EAPO가 최신(SOTA) 베이스라인 대비 긴 문맥 추론 성능을 획기적으로 향상시키는 것으로 나타났습니다.

Original Abstract

While Reinforcement Learning (RL) has advanced LLM reasoning, applying it to long-context scenarios is hindered by sparsity of outcome rewards. This limitation fails to penalize ungrounded "lucky guesses," leaving the critical process of needle-in-a-haystack evidence retrieval largely unsupervised. To address this, we propose EAPO (Evidence-Augmented Policy Optimization). We first establish the Evidence-Augmented Reasoning paradigm, validating via Tree-Structured Evidence Sampling that precise evidence extraction is the decisive bottleneck for long-context reasoning. Guided by this insight, EAPO introduces a specialized RL algorithm where a reward model computes a Group-Relative Evidence Reward, providing dense process supervision to explicitly improve evidence quality. To sustain accurate supervision throughout training, we further incorporate an Adaptive Reward-Policy Co-Evolution mechanism. This mechanism iteratively refines the reward model using outcome-consistent rollouts, sharpening its discriminative capability to ensure precise process guidance. Comprehensive evaluations across eight benchmarks demonstrate that EAPO significantly enhances long-context reasoning performance compared to SOTA baselines.

1 Citations

0 Influential

13.5 Altmetric

68.5 Score

Original PDF

AI Analysis

Korean Summary

이 논문은 긴 문맥(Long-context) 추론 과제에서 단순히 최종 정답의 맞음 여부(Outcome reward)에만 의존하는 강화학습(RL)의 한계를 극복하기 위해 '증거 강화 정책 최적화(EAPO)' 프레임워크를 제안합니다. 연구진은 먼저 증거 추출이 긴 문맥 추론의 핵심 병목임을 밝혀내고, 이를 해결하기 위해 명시적인 증거 추출 단계를 포함하는 '증거 강화 추론(EAR)' 패러다임을 도입했습니다. EAPO는 그룹 상대적 증거 보상(Group-Relative Evidence Reward)을 통해 중간 과정에 대한 밀집된 피드백을 제공하며, '적응형 보상-정책 공진화(Adaptive Reward-Policy Co-Evolution)' 메커니즘을 통해 보상 모델이 정책 모델과 함께 반복적으로 학습되도록 하여 평가의 정확도를 지속적으로 유지합니다. 실험 결과, EAPO는 8개의 벤치마크에서 기존 SOTA 모델들을 능가하는 성능을 보였습니다.

Key Innovations

EAR(Evidence-Augmented Reasoning) 패러다임: 분석-증거추출-추론으로 이어지는 명시적 4단계 워크플로우 정립
EAPO(Evidence-Augmented Policy Optimization): 희소한 결과 보상 대신 증거 품질에 대한 밀집된 과정 보상(Process Reward) 제공
그룹 상대적 증거 품질(Group-Relative Evidence Quality) 보상: 보상 모델을 이용해 추출된 증거의 효용성을 평가
적응형 보상-정책 공진화(Adaptive Reward-Policy Co-Evolution): 정책 모델이 생성한 고신뢰도 데이터를 활용해 보상 모델을 반복적으로 미세 조정(RFT)하여 평가 성능 저하 방지

Learning & Inference Impact

학습 과정에서는 정답 여부뿐만 아니라 증거 추출의 품질에 대한 세밀한 보상을 제공함으로써, 모델이 '운 좋게 맞히는' 경우를 배제하고 실질적인 추론 능력을 기르도록 가속화합니다. 특히 보상 모델의 공진화 전략은 학습이 진행됨에 따라 더 정교한 피드백을 가능하게 하여 성능 수렴 속도와 최종 성능 천장을 모두 높입니다. 추론 시에는 모델이 내부적으로 분석(<analysis>), 증거 추출(<evidence>), 추론(<reasoning>) 단계를 명시적으로 출력하게 되어, 긴 문맥 속에서 정확한 정보를 찾아내는 능력(Needle-in-a-haystack)이 강화되고 답변의 설명 가능성과 신뢰도가 크게 향상됩니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!