데이터 희소 환경에서의 대규모 언어 모델을 위한 강화 학습 연구 동향: 과제 및 해결 방안
A Survey of Reinforcement Learning for Large Language Models under Data Scarcity: Challenges and Solutions
강화 학습(RL)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 강력한 후처리 패러다임으로 부상했습니다. 그러나 LLM을 위한 강화 학습은 고품질 외부 감독 데이터의 제한적인 가용성과 모델이 생성하는 경험 데이터의 제한적인 양이라는 데이터 희소성이라는 심각한 문제에 직면합니다. 이러한 제약 사항은 데이터 효율적인 강화 학습을 중요한 연구 방향으로 만듭니다. 본 연구에서는 데이터 희소 환경에서 LLM을 위한 강화 학습에 대한 최초의 체계적인 연구를 제시합니다. 데이터 중심 관점, 학습 중심 관점, 그리고 프레임워크 중심 관점이라는 세 가지 상호 보완적인 관점을 중심으로 하는 하향식 계층 구조 프레임워크를 제안합니다. 기존 방법의 분류 체계를 개발하고, 각 범주에서 대표적인 접근 방식을 요약하며, 그 장단점을 분석합니다. 본 분류 체계는 데이터 효율적인 LLM 강화 학습 설계 공간에 대한 명확한 개념적 기반을 제공하고, 이 분야의 연구자들에게 지침을 제공하는 것을 목표로 합니다. 본 연구가 향후 연구를 위한 포괄적인 로드맵을 제공하고, LLM의 효율적이고 확장 가능한 후처리 강화 학습을 위한 새로운 방향을 제시하는 데 기여하기를 바랍니다.
Reinforcement learning (RL) has emerged as a powerful post-training paradigm for enhancing the reasoning capabilities of large language models (LLMs). However, reinforcement learning for LLMs faces substantial data scarcity challenges, including the limited availability of high-quality external supervision and the constrained volume of model-generated experience. These limitations make data-efficient reinforcement learning a critical research direction. In this survey, we present the first systematic review of reinforcement learning for LLMs under data scarcity. We propose a bottom-up hierarchical framework built around three complementary perspectives: the data-centric perspective, the training-centric perspective, and the framework-centric perspective. We develop a taxonomy of existing methods, summarize representative approaches in each category, and analyze their strengths and limitations. Our taxonomy aims to provide a clear conceptual foundation for understanding the design space of data-efficient RL for LLMs and to guide researchers working in this emerging area. We hope this survey offers a comprehensive roadmap for future research and inspires new directions toward more efficient and scalable reinforcement learning post-training for LLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.