2209.14375 Sep 28, 2022 cs.AI

구체적인 인간 평가를 통한 대화형 에이전트의 정렬 개선

Improving alignment of dialogue agents via targeted human judgements

Amelia Glaese
Amelia Glaese
Citations: 4,701
h-index: 9
Nat McAleese
Nat McAleese
Citations: 4,275
h-index: 10
Maja Trkebacz
Maja Trkebacz
Citations: 651
h-index: 1
John Aslanides
John Aslanides
Citations: 6,951
h-index: 14
Vlad Firoiu
Vlad Firoiu
Citations: 2,699
h-index: 11
T. Ewalds
T. Ewalds
Citations: 1,550
h-index: 5
Maribeth Rauh
Maribeth Rauh
Citations: 4,981
h-index: 12
Laura Weidinger
Laura Weidinger
Citations: 5,517
h-index: 18
Martin Chadwick
Martin Chadwick
Citations: 6,584
h-index: 6
Phoebe Thacker
Phoebe Thacker
Citations: 4,157
h-index: 6
Lucy Campbell-Gillingham
Lucy Campbell-Gillingham
Citations: 1,566
h-index: 6
Jonathan Uesato
Jonathan Uesato
Citations: 13,100
h-index: 25
Po-Sen Huang
Po-Sen Huang
Citations: 11,699
h-index: 31
R. Comanescu
R. Comanescu
Citations: 8,914
h-index: 12
Fan Yang
Fan Yang
Citations: 31,857
h-index: 74
A. See
A. See
Citations: 6,332
h-index: 11
Sumanth Dathathri
Sumanth Dathathri
Citations: 4,329
h-index: 14
Rory Greig
Rory Greig
Citations: 746
h-index: 5
Charlie Chen
Charlie Chen
Citations: 11,621
h-index: 10
Doug Fritz
Doug Fritz
Citations: 2,544
h-index: 3
Jaume Sanchez Elias
Jaume Sanchez Elias
Citations: 2,683
h-index: 2
Richard Green
Richard Green
Citations: 3,402
h-index: 2
Sovna Mokr'a
Sovna Mokr'a
Citations: 815
h-index: 2
Nicholas Fernando
Nicholas Fernando
Citations: 5,952
h-index: 5
Boxi Wu
Boxi Wu
Citations: 1,614
h-index: 17
Susannah Young
Susannah Young
Citations: 2,971
h-index: 7
Iason Gabriel
Iason Gabriel
Citations: 7,382
h-index: 24
William S. Isaac
William S. Isaac
Citations: 5,821
h-index: 14
John F. J. Mellor
John F. J. Mellor
Citations: 4,952
h-index: 10
D. Hassabis
D. Hassabis
Citations: 182,350
h-index: 88
K. Kavukcuoglu
K. Kavukcuoglu
Citations: 225,616
h-index: 75
Lisa Anne Hendricks
Lisa Anne Hendricks
Citations: 20,989
h-index: 32
G. Irving
G. Irving
Citations: 43,536
h-index: 22
Ra Foley
Ra Foley
Citations: 897
h-index: 2

우리는 프롬프트 기반 언어 모델 베이스라인보다 더 유용하고, 정확하며, 무해하도록 훈련된 정보 탐색 대화형 에이전트인 Sparrow를 제안합니다. 우리는 인간 평가자가 에이전트의 행동을 판단하는 것을 돕기 위해 두 가지 새로운 요소를 추가하여, 인간 피드백 기반 강화 학습(RLHF)으로 모델을 훈련했습니다. 첫째, 에이전트를 더 유용하고 무해하게 만들기 위해 좋은 대화의 요구 사항을 에이전트가 따라야 할 자연어 규칙으로 세분화하고, 평가자에게 각 규칙에 대해 개별적으로 질문했습니다. 우리는 이러한 세분화를 통해 에이전트 행동에 대한 보다 구체적인 인간 평가를 수집할 수 있고, 더 효율적인 규칙 조건부 보상 모델이 가능해짐을 입증했습니다. 둘째, 모델의 발언에 대한 선호도 판단을 수집할 때, 우리 에이전트는 사실적 주장을 뒷받침하는 출처의 증거를 함께 제공합니다. 사실적 질문의 경우, Sparrow가 제공한 증거는 78%의 비율로 응답 내용을 뒷받침했습니다. Sparrow는 베이스라인보다 더 자주 선호되는 동시에 인간의 적대적 프로빙(adversarial probing)에 더 강한 저항력을 보였으며, 프로빙 시 규칙 위반 비율은 8%에 불과했습니다. 마지막으로, 우리는 모델이 규칙을 따르는 법을 학습했음에도 불구하고 분포적 편향을 보일 수 있음을 보여주는 광범위한 분석을 수행했습니다.

Original Abstract

We present Sparrow, an information-seeking dialogue agent trained to be more helpful, correct, and harmless compared to prompted language model baselines. We use reinforcement learning from human feedback to train our models with two new additions to help human raters judge agent behaviour. First, to make our agent more helpful and harmless, we break down the requirements for good dialogue into natural language rules the agent should follow, and ask raters about each rule separately. We demonstrate that this breakdown enables us to collect more targeted human judgements of agent behaviour and allows for more efficient rule-conditional reward models. Second, our agent provides evidence from sources supporting factual claims when collecting preference judgements over model statements. For factual questions, evidence provided by Sparrow supports the sampled response 78% of the time. Sparrow is preferred more often than baselines while being more resilient to adversarial probing by humans, violating our rules only 8% of the time when probed. Finally, we conduct extensive analyses showing that though our model learns to follow our rules it can exhibit distributional biases.

653 Citations
30 Influential
30 Altmetric
863.0 Score

AI Analysis

Korean Summary

DeepMind는 인간 피드백 기반 강화학습(RLHF)을 활용하여 더욱 유용하고, 정확하며, 무해한 정보 검색 대화 에이전트인 'Sparrow'를 제안했습니다. 이 연구는 단순히 좋은 답변을 고르는 것을 넘어, 구체적인 자연어 규칙을 정의하고 이에 대한 위반 여부를 인간이 평가하게 하여 모델을 정밀하게 제어했습니다. 또한, 모델이 인터넷 검색을 통해 답변의 근거(증거)를 함께 제시하도록 훈련시켜 사실성을 높이고 환각(Hallucination)을 줄였습니다. 실험 결과 Sparrow는 적대적 질문에 대해서도 높은 규칙 준수율을 보였으며, 사실적 질문의 78%에서 올바른 증거를 제시했습니다.

Key Innovations

  • 구체적인 자연어 규칙 기반의 타겟팅된 인간 판단(Targeted Human Judgements) 시스템 도입
  • 선호도 보상 모델(Preference RM)과 규칙 위반 보상 모델(Rule RM)을 결합한 다목적 RLHF
  • 실시간 인터넷 검색 결과를 활용한 인라인 증거(Inline Evidence) 제시 기능
  • 인간이 고의로 규칙 위반을 유도하는 적대적 프로빙(Adversarial Probing)을 통한 데이터 수집 및 모델 강화

Learning & Inference Impact

학습 단계에서는 일반적인 선호도 데이터 외에 특정 규칙 위반 여부에 대한 데이터를 수집하여 별도의 '규칙 보상 모델'을 훈련시키고 이를 강화학습 보상 함수에 통합했습니다. 또한 자기 대화(Self-play)와 적대적 데이터를 혼합하여 분포 편향을 줄이고 안전성을 높였습니다. 추론 및 서비스 단계에서는 모델이 필요에 따라 검색 쿼리를 생성하여 외부 지식을 참조하며, 생성된 여러 후보 답변 중 보상 모델 점수가 가장 높은 것을 선택하는 리랭킹(Reranking) 과정을 통해 답변의 품질과 안전성을 최종적으로 검증합니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!