2604.18639v1 Apr 19, 2026 cs.LG

간단한 샘플만 있으면 충분합니다: 데이터 효율적인 강화 학습을 통한 자체 진화형 LLM

Easy Samples Are All You Need: Self-Evolving LLMs via Data-Efficient Reinforcement Learning

Lei Bai
Lei Bai
Citations: 48
h-index: 4
Qibin Hou
Qibin Hou
Citations: 40
h-index: 3
Bo Zhang
Bo Zhang
Citations: 80
h-index: 6
Xiao Luo
Xiao Luo
Citations: 12
h-index: 2
Zhiyin Yu
Zhiyin Yu
Citations: 65
h-index: 2
Zhonghai Wu
Zhonghai Wu
Citations: 2
h-index: 1

기존의 LLM 기반 강화 학습 연구는 일반적으로 높은 주석 비용이 수반되는 지도 학습 방식 또는 투표 또는 엔트로피 기반 보상을 사용하는 비지도 학습 방식을 따랐습니다. 그러나 이러한 방식들은 상당한 주석 비용과 모델 붕괴 또는 보상 해킹과 같은 문제들로 인해 여전히 만족스러운 성능을 보이지 못합니다. 이러한 문제점을 해결하기 위해, 우리는 인지 학습 이론에서 영감을 받아 새로운 관점을 제시하고, EasyRL이라는 새로운 접근 방식을 제안합니다. EasyRL의 핵심은, 쉬운 레이블 데이터로부터의 신뢰성 있는 지식 전달을 통합하고, 점진적인 분할 정복 전략을 사용하여 점점 더 어려운 레이블이 없는 데이터를 처리함으로써 인간의 인지 습득 곡선을 모방하는 것입니다. 구체적으로, 우리는 소량의 레이블 데이터로 지도 강화 학습을 수행하여 초기 모델을 학습시킵니다. 이어서, 어려운 레이블이 없는 데이터에 대해 분할 정복 방식의 의사 레이블링 전략을 적용하는데, 이는 불확실성이 낮은 경우 일관성 기반 선택을 사용하고, 중간 정도의 불확실성이 있는 경우 반사 기반 해결 방식을 사용합니다. 마지막으로, 반복적인 의사 레이블링과 강화 학습을 통해 난이도를 점진적으로 높여 모델의 추론 능력을 더욱 강화합니다. EasyRL은 데이터 효율적인 LLM의 사후 학습을 용이하게 하는 통합된 자체 진화 프레임워크를 제공합니다. 수학 및 과학 벤치마크에서의 실험 결과는 EasyRL이 최첨단 모델보다 우수한 성능을 보이며, 이는 전체 레이블 데이터의 10%에 해당하는 쉬운 데이터만 사용했을 때에도 일관되게 나타났습니다.

Original Abstract

Previous LLMs-based RL studies typically follow either supervised learning with high annotation costs, or unsupervised paradigms using voting or entropy-based rewards. However, their performance remains far from satisfactory due to the substantial annotation cost and issues such as model collapse or reward hacking. To address these issues, we introduce a new perspective inspired by cognitive learning theory and propose a novel approach called EasyRL. The core of EasyRL is to simulate the human cognitive acquisition curve by integrating reliable knowledge transfer from easy labeled data with a progressive divide-and-conquer strategy that tackles increasingly difficult unlabeled data. Specifically, we initialize a warm-up model using supervised RL with few-shot labeled data. This is followed by a divide-and-conquer pseudo-labeling strategy on difficult unlabeled data, combining consistency-based selection for low-uncertainty cases and reflection-based resolution for medium-uncertainty cases. Finally, difficulty-progressive self-training with iterative pseudo-labeling and RL further strengthens the model's reasoning capability. EasyRL provides a unified self-evolving framework that facilitates data-efficient post-training of LLMs. Experimental results on mathematical and scientific benchmarks demonstrate that EasyRL, using only 10% of easy labeled data, consistently outperforms state-of-the-art baselines.

1 Citations
1 Influential
3 Altmetric
18.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!