RLHFless: 효율적인 RLHF를 위한 서버리스 컴퓨팅
RLHFless: Serverless Computing for Efficient RLHF
인간 피드백 기반 강화 학습(RLHF)은 대규모 언어 모델(LLM)의 후속 학습에 널리 사용되어 모델 출력을 인간의 선호도에 맞추는 데 활용됩니다. 최근의 DeepSeek-R1과 같은 모델은 RLHF가 복잡한 작업에서 LLM의 추론 능력을 향상시키는 데 기여할 수 있음을 보여주었습니다. 강화 학습에서 추론과 학습이 동시에 이루어지므로, 워크플로우 전체에 걸쳐 동적인 리소스 요구 사항이 발생합니다. 기존 강화 학습에 비해, RLHF는 모델 크기와 리소스 소비 증가로 인해 학습 효율성에 더 큰 어려움을 야기합니다. 여러 RLHF 프레임워크는 유연한 추상화와 효율적인 실행을 동시에 달성하기 위해 노력합니다. 그러나 이러한 프레임워크는 세분화된 리소스 변동에 어려움을 겪는 서버 기반 인프라에 의존합니다. 그 결과, 동기식 RLHF 학습 과정에서 RL 구성 요소 간 또는 내부의 유휴 시간이 발생하여 오버헤드와 리소스 낭비가 발생합니다. 이러한 문제를 해결하기 위해, 우리는 서버리스 컴퓨팅 환경을 기반으로 구축된 동기식 RLHF를 위한 최초의 확장 가능한 학습 프레임워크인 RLHFless를 제시합니다. RLHFless는 RLHF 파이프라인 전반에 걸쳐 발생하는 동적인 리소스 요구 사항에 적응하고, 중복 계산을 방지하기 위해 공유된 접두사를 미리 계산하며, 응답 길이의 변동을 고려하여 비용 효율성과 속도 측면에서 최적의 균형을 찾는 비용 인지 액터 확장 전략을 사용합니다. 또한, RLHFless는 워크로드를 효율적으로 할당하여 함수 내부의 불균형과 유휴 시간을 줄입니다. 물리적 테스트베드와 대규모 시뮬레이션 클러스터에서의 실험 결과, RLHFless는 최첨단 기준 성능에 비해 최대 1.35배의 속도 향상과 44.8%의 비용 절감을 달성했습니다.
Reinforcement Learning from Human Feedback (RLHF) has been widely applied to Large Language Model (LLM) post-training to align model outputs with human preferences. Recent models, such as DeepSeek-R1, have also shown RLHF's potential to improve LLM reasoning on complex tasks. In RL, inference and training co-exist, creating dynamic resource demands throughout the workflow. Compared to traditional RL, RLHF further challenges training efficiency due to expanding model sizes and resource consumption. Several RLHF frameworks aim to balance flexible abstraction and efficient execution. However, they rely on serverful infrastructures, which struggle with fine-grained resource variability. As a result, during synchronous RLHF training, idle time between or within RL components often causes overhead and resource wastage. To address these issues, we present RLHFless, the first scalable training framework for synchronous RLHF, built on serverless computing environments. RLHFless adapts to dynamic resource demands throughout the RLHF pipeline, pre-computes shared prefixes to avoid repeated computation, and uses a cost-aware actor scaling strategy that accounts for response length variation to find sweet spots with lower cost and higher speed. In addition, RLHFless assigns workloads efficiently to reduce intra-function imbalance and idle time. Experiments on both physical testbeds and a large-scale simulated cluster show that RLHFless achieves up to 1.35x speedup and 44.8% cost reduction compared to the state-of-the-art baseline.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.