구체적인 인간 평가를 통한 대화형 에이전트의 정렬 개선
Improving alignment of dialogue agents via targeted human judgements
우리는 프롬프트 기반 언어 모델 베이스라인보다 더 유용하고, 정확하며, 무해하도록 훈련된 정보 탐색 대화형 에이전트인 Sparrow를 제안합니다. 우리는 인간 평가자가 에이전트의 행동을 판단하는 것을 돕기 위해 두 가지 새로운 요소를 추가하여, 인간 피드백 기반 강화 학습(RLHF)으로 모델을 훈련했습니다. 첫째, 에이전트를 더 유용하고 무해하게 만들기 위해 좋은 대화의 요구 사항을 에이전트가 따라야 할 자연어 규칙으로 세분화하고, 평가자에게 각 규칙에 대해 개별적으로 질문했습니다. 우리는 이러한 세분화를 통해 에이전트 행동에 대한 보다 구체적인 인간 평가를 수집할 수 있고, 더 효율적인 규칙 조건부 보상 모델이 가능해짐을 입증했습니다. 둘째, 모델의 발언에 대한 선호도 판단을 수집할 때, 우리 에이전트는 사실적 주장을 뒷받침하는 출처의 증거를 함께 제공합니다. 사실적 질문의 경우, Sparrow가 제공한 증거는 78%의 비율로 응답 내용을 뒷받침했습니다. Sparrow는 베이스라인보다 더 자주 선호되는 동시에 인간의 적대적 프로빙(adversarial probing)에 더 강한 저항력을 보였으며, 프로빙 시 규칙 위반 비율은 8%에 불과했습니다. 마지막으로, 우리는 모델이 규칙을 따르는 법을 학습했음에도 불구하고 분포적 편향을 보일 수 있음을 보여주는 광범위한 분석을 수행했습니다.
We present Sparrow, an information-seeking dialogue agent trained to be more helpful, correct, and harmless compared to prompted language model baselines. We use reinforcement learning from human feedback to train our models with two new additions to help human raters judge agent behaviour. First, to make our agent more helpful and harmless, we break down the requirements for good dialogue into natural language rules the agent should follow, and ask raters about each rule separately. We demonstrate that this breakdown enables us to collect more targeted human judgements of agent behaviour and allows for more efficient rule-conditional reward models. Second, our agent provides evidence from sources supporting factual claims when collecting preference judgements over model statements. For factual questions, evidence provided by Sparrow supports the sampled response 78% of the time. Sparrow is preferred more often than baselines while being more resilient to adversarial probing by humans, violating our rules only 8% of the time when probed. Finally, we conduct extensive analyses showing that though our model learns to follow our rules it can exhibit distributional biases.
AI Analysis
Korean Summary
Key Innovations
- 구체적인 자연어 규칙 기반의 타겟팅된 인간 판단(Targeted Human Judgements) 시스템 도입
- 선호도 보상 모델(Preference RM)과 규칙 위반 보상 모델(Rule RM)을 결합한 다목적 RLHF
- 실시간 인터넷 검색 결과를 활용한 인라인 증거(Inline Evidence) 제시 기능
- 인간이 고의로 규칙 위반을 유도하는 적대적 프로빙(Adversarial Probing)을 통한 데이터 수집 및 모델 강화
Learning & Inference Impact
학습 단계에서는 일반적인 선호도 데이터 외에 특정 규칙 위반 여부에 대한 데이터를 수집하여 별도의 '규칙 보상 모델'을 훈련시키고 이를 강화학습 보상 함수에 통합했습니다. 또한 자기 대화(Self-play)와 적대적 데이터를 혼합하여 분포 편향을 줄이고 안전성을 높였습니다. 추론 및 서비스 단계에서는 모델이 필요에 따라 검색 쿼리를 생성하여 외부 지식을 참조하며, 생성된 여러 후보 답변 중 보상 모델 점수가 가장 높은 것을 선택하는 리랭킹(Reranking) 과정을 통해 답변의 품질과 안전성을 최종적으로 검증합니다.
Technical Difficulty
Estimated implementation complexity based on methodology.