모든 것을 위한 단일 모델: 다중 목표 제어 가능 언어 모델
One Model for All: Multi-Objective Controllable Language Models
대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 것은 LLM의 안전성, 유용성, 유머, 신뢰성 등을 향상시키는 데 매우 중요합니다. 현재 인간 피드백 기반 강화 학습(RLHF)은 주로 평균적인 인간 평가에서 학습된 고정된 보상에 초점을 맞추는데, 이는 다양한 선호도에 대한 적응성과 제어 가능성을 약화시킬 수 있습니다. 그러나 개인화된 LLM을 만들기 위해서는 LLM을 개별적인 인간 선호도에 맞추어야 하는데, 이는 사용자당 제한된 데이터와 다중 목표 간의 다양한 균형 때문에 쉽지 않습니다. 예를 들어, 특정 상황에서는 공감 능력을 강조하는 반면, 다른 상황에서는 효율성과 정확성을 요구할 수 있습니다. 우리는 단일 LLM을 훈련하여 패리티 프론트(Pareto front) 상의 다양한 사용자 선호도에 따라 개인화된 출력을 생성할 수 있는지 조사합니다. 본 논문에서는 다중 목표 제어(MOC)라는 새로운 방법을 제시합니다. MOC는 단일 LLM을 훈련하여 선호도가 정의된 패리티 프론트 영역에서 직접 응답을 생성하도록 합니다. 우리는 RLHF에 다중 목표 최적화(MOO) 원리를 도입하여 LLM을 선호도 기반 정책 네트워크로 훈련합니다. 우리는 MOO를 정책 수준에서 적용하여 MOC의 계산 효율성을 향상시켰으며, 이를 통해 단일 A6000 GPU에서 70억 개의 파라미터를 가진 모델을 미세 조정할 수 있었습니다. 광범위한 실험 결과는 MOC가 다음과 같은 세 가지 측면에서 기존 방법보다 우수함을 보여줍니다. (i) 여러 보상 간의 균형에 따른 사용자 선호도에 대한 LLM 출력의 제어 가능성, (ii) 여러 솔루션의 하이퍼 볼륨(hyper-volume)으로 측정되는 LLM 출력의 품질 및 다양성, (iii) 미지의 선호도에 대한 일반화 성능. 이러한 결과는 MOC가 확장 가능하고 사용자 정의 가능한 LLM이 필요한 실제 응용 분야에서 잠재력을 가지고 있음을 시사합니다.
Aligning large language models (LLMs) with human preferences is critical for enhancing LLMs' safety, helpfulness, humor, faithfulness, etc. Current reinforcement learning from human feedback (RLHF) mainly focuses on a fixed reward learned from average human ratings, which may weaken the adaptability and controllability of varying preferences. However, creating personalized LLMs requires aligning LLMs with individual human preferences, which is non-trivial due to the scarce data per user and the diversity of user preferences in multi-objective trade-offs, varying from emphasizing empathy in certain contexts to demanding efficiency and precision in others. Can we train one LLM to produce personalized outputs across different user preferences on the Pareto front? In this paper, we introduce Multi-Objective Control (MOC), which trains a single LLM to directly generate responses in the preference-defined regions of the Pareto front. Our approach introduces multi-objective optimization (MOO) principles into RLHF to train an LLM as a preference-conditioned policy network. We improve the computational efficiency of MOC by applying MOO at the policy level, enabling us to fine-tune a 7B-parameter model on a single A6000 GPU. Extensive experiments demonstrate the advantages of MOC over baselines in three aspects: (i) controllability of LLM outputs w.r.t. user preferences on the trade-off among multiple rewards; (ii) quality and diversity of LLM outputs, measured by the hyper-volume of multiple solutions achieved; and (iii) generalization to unseen preferences. These results highlight MOC's potential for real-world applications requiring scalable and customizable LLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.