2604.11297v1 Apr 13, 2026 cs.LG

과거는 과거가 아니다: 기억 기반 동적 보상 형성

The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping

Y. Zheng
Y. Zheng
Citations: 375
h-index: 4
Yufei Gao
Yufei Gao
Citations: 29
h-index: 2
Bo Wang
Bo Wang
Citations: 92
h-index: 5
Yikai Zhang
Yikai Zhang
Citations: 130
h-index: 4
Weixin Zhang
Weixin Zhang
Citations: 0
h-index: 0
Xipeng Qiu
Xipeng Qiu
Citations: 130
h-index: 3
Yang Liu
Yang Liu
Citations: 33
h-index: 2
Enxian Wang
Enxian Wang
Citations: 0
h-index: 0
Zhiyuan Zeng
Zhiyuan Zeng
Citations: 274
h-index: 9

대규모 언어 모델을 위한 강화 학습은 성공적인 결과를 보여주었지만, 일반적인 문제점은 샘플링 다양성의 감소이며, 이는 정책이 반복적으로 유사한 오류를 생성하는 현상입니다. 기존의 엔트로피 정규화는 현재 정책 하에서 무작위성을 장려하지만, 여러 실행 과정에서 반복되는 오류 패턴을 명시적으로 억제하지는 못합니다. 우리는 MEDS(Memory-Enhanced Dynamic reward Shaping)라는 프레임워크를 제안합니다. MEDS는 과거의 행동 신호를 보상 설계에 통합합니다. 중간 모델 표현을 저장하고 활용하여 과거 실행 과정의 특징을 파악하고, 밀도 기반 클러스터링을 사용하여 빈번하게 반복되는 오류 패턴을 식별합니다. 더 흔하게 나타나는 오류 클러스터에 속하는 실행 과정은 더 큰 페널티를 받으므로, 광범위한 탐색을 장려하면서 반복적인 실수를 줄입니다. 5개의 데이터 세트와 3개의 기본 모델에서 MEDS는 기존의 기본 성능을 꾸준히 향상시키며, 최대 4.13의 pass@1 점수와 4.37의 pass@128 점수를 향상시켰습니다. LLM 기반 주석과 정량적 다양성 지표를 사용한 추가 분석 결과, MEDS는 샘플링 과정에서 행동 다양성을 증가시키는 것으로 나타났습니다.

Original Abstract

Despite the success of reinforcement learning for large language models, a common failure mode is reduced sampling diversity, where the policy repeatedly generates similar erroneous behaviors. Classical entropy regularization encourages randomness under the current policy, but does not explicitly discourage recurrent failure patterns across rollouts. We propose MEDS, a Memory-Enhanced Dynamic reward Shaping framework that incorporates historical behavioral signals into reward design. By storing and leveraging intermediate model representations, we capture features of past rollouts and use density-based clustering to identify frequently recurring error patterns. Rollouts assigned to more prevalent error clusters are penalized more heavily, encouraging broader exploration while reducing repeated mistakes. Across five datasets and three base models, MEDS consistently improves average performance over existing baselines, achieving gains of up to 4.13 pass@1 points and 4.37 pass@128 points. Additional analyses using both LLM-based annotations and quantitative diversity metrics show that MEDS increases behavioral diversity during sampling.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!