ActiveUltraFeedback: 능동 학습을 이용한 효율적인 선호도 데이터 생성
ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning
인간 피드백 기반 강화 학습(RLHF)은 대규모 언어 모델(LLM)의 정렬을 위한 표준이 되었지만, 특히 자원이 부족하거나 전문적인 분야에서 선호도 데이터를 획득하는 데 드는 높은 비용으로 인해 효율성이 제한됩니다. 이러한 문제를 해결하기 위해, 불확실성 추정치를 활용하여 주석에 가장 유용한 응답을 동적으로 식별하는 모듈식 능동 학습 파이프라인인 ACTIVEULTRAFEEDBACK을 소개합니다. 저희 파이프라인은 표준 응답 선택 방법뿐만 아니라, 예측된 품질 차이가 큰 응답 쌍을 우선시하는 새로운 방법인 DOUBLE REVERSE THOMPSON SAMPLING (DRTS) 및 DELTAUCB를 체계적으로 평가합니다. 최근 연구 결과에 따르면, 이러한 쌍은 미세 조정에 유용한 신호를 제공합니다. 실험 결과, ACTIVEULTRAFEEDBACK은 고품질 데이터 세트를 생성하여 다운스트림 성능을 크게 향상시키며, 정적 기준과 비교하여 최대 6분의 1 수준의 주석 데이터만으로도 동등하거나 더 나은 결과를 달성하는 것을 보여줍니다. 저희 파이프라인은 https://github.com/lasgroup/ActiveUltraFeedback에서, 선호도 데이터 세트는 https://huggingface.co/ActiveUltraFeedback에서 이용할 수 있습니다.
Reinforcement Learning from Human Feedback (RLHF) has become the standard for aligning Large Language Models (LLMs), yet its efficacy is bottlenecked by the high cost of acquiring preference data, especially in low-resource and expert domains. To address this, we introduce ACTIVEULTRAFEEDBACK, a modular active learning pipeline that leverages uncertainty estimates to dynamically identify the most informative responses for annotation. Our pipeline facilitates the systematic evaluation of standard response selection methods alongside DOUBLE REVERSE THOMPSON SAMPLING (DRTS) and DELTAUCB, two novel methods prioritizing response pairs with large predicted quality gaps, leveraging recent results showing that such pairs provide good signals for fine-tuning. Our experiments demonstrate that ACTIVEULTRAFEEDBACK yields high-quality datasets that lead to significant improvements in downstream performance, notably achieving comparable or superior results with as little as one-sixth of the annotated data relative to static baselines. Our pipeline is available at https://github.com/lasgroup/ActiveUltraFeedback and our preference datasets at https://huggingface.co/ActiveUltraFeedback.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.