2112.09332 Dec 17, 2021 cs.AI

WebGPT: 인간 피드백을 활용한 브라우저 보조 질의응답

WebGPT: Browser-assisted question-answering with human feedback

Gretchen Krueger
Gretchen Krueger
Citations: 133,536
h-index: 12
S. Balaji
S. Balaji
Citations: 36,125
h-index: 6
Shantanu Jain
Shantanu Jain
Citations: 10,315
h-index: 4
Reiichiro Nakano
Reiichiro Nakano
Citations: 32,244
h-index: 9
Jacob Hilton
Jacob Hilton
Citations: 34,867
h-index: 9
Jeff Wu
Jeff Wu
Citations: 118,723
h-index: 11
Ouyang Long
Ouyang Long
Citations: 27,984
h-index: 6
Christina Kim
Christina Kim
Citations: 27,734
h-index: 6
Christopher Hesse
Christopher Hesse
Citations: 68,568
h-index: 9
Vineet Kosaraju
Vineet Kosaraju
Citations: 14,807
h-index: 11
W. Saunders
W. Saunders
Citations: 4,777
h-index: 7
Xu Jiang
Xu Jiang
Citations: 20,518
h-index: 2
K. Cobbe
K. Cobbe
Citations: 13,824
h-index: 10
Tyna Eloundou
Tyna Eloundou
Citations: 28,764
h-index: 10
Kevin Button
Kevin Button
Citations: 27,627
h-index: 7
Matthew Knight
Matthew Knight
Citations: 24,287
h-index: 5
Benjamin Chess
Benjamin Chess
Citations: 86,562
h-index: 8
John Schulman
John Schulman
Citations: 124,794
h-index: 45

우리는 모델이 웹을 검색하고 탐색할 수 있는 텍스트 기반 웹 브라우징 환경을 사용하여, 서술형 질문에 답변하도록 GPT-3를 미세 조정(fine-tune)했습니다. 인간이 수행할 수 있는 방식으로 작업을 구성함으로써 모방 학습(imitation learning)을 사용하여 모델을 훈련시킨 뒤, 인간 피드백을 통해 답변의 품질을 최적화할 수 있었습니다. 사실적 정확성에 대한 인간의 평가를 돕기 위해, 모델은 브라우징 중에 답변을 뒷받침하는 출처를 수집해야 합니다. 우리는 레딧(Reddit) 사용자들이 작성한 질문 데이터셋인 ELI5를 사용하여 모델을 훈련하고 평가했습니다. 가장 성능이 뛰어난 모델은 행동 복제(behavior cloning)를 사용하여 GPT-3를 미세 조정한 후, 인간 선호도를 예측하도록 훈련된 보상 모델을 기반으로 기각 샘플링(rejection sampling)을 수행하여 얻어졌습니다. 이 모델의 답변은 인간 시연자의 답변보다 56%, 레딧에서 가장 많은 추천을 받은 답변보다 69%의 비율로 인간에게 더 선호되었습니다.

Original Abstract

We fine-tune GPT-3 to answer long-form questions using a text-based web-browsing environment, which allows the model to search and navigate the web. By setting up the task so that it can be performed by humans, we are able to train models on the task using imitation learning, and then optimize answer quality with human feedback. To make human evaluation of factual accuracy easier, models must collect references while browsing in support of their answers. We train and evaluate our models on ELI5, a dataset of questions asked by Reddit users. Our best model is obtained by fine-tuning GPT-3 using behavior cloning, and then performing rejection sampling against a reward model trained to predict human preferences. This model's answers are preferred by humans 56% of the time to those of our human demonstrators, and 69% of the time to the highest-voted answer from Reddit.

1705 Citations
118 Influential
22.5 Altmetric
2,053.5 Score

AI Analysis

Korean Summary

이 논문은 텍스트 기반 웹 브라우징 환경을 사용하여 긴 형식의 질문(LFQA)에 답변하도록 GPT-3를 미세 조정(fine-tuning)한 'WebGPT'를 제안합니다. 연구진은 인간의 웹 검색 및 답변 작성 과정을 모방하는 행동 복제(Behavior Cloning)와, 인간 선호도 데이터를 기반으로 한 보상 모델링(Reward Modeling)을 결합하여 모델을 훈련했습니다. WebGPT는 답변과 함께 웹페이지에서 찾은 참조(인용)를 제공하여 사실 확인을 용이하게 합니다. 실험 결과, 175B 모델에 거부 샘플링(Rejection Sampling)을 적용했을 때 인간 시연자가 작성한 답변보다 56%, Reddit ELI5 데이터셋의 베스트 답변보다 69% 더 선호되는 결과를 보였습니다.

Key Innovations

  • LLM이 상호작용할 수 있는 텍스트 기반 웹 브라우징 환경 및 명령어(검색, 클릭, 인용 등) 구축
  • 행동 복제(BC), 보상 모델링(RM), 강화 학습(RL), 거부 샘플링(Rejection Sampling)을 통합한 훈련 파이프라인 적용
  • 브라우징 중 수집한 정보를 바탕으로 참조(Reference)가 포함된 답변을 생성하여 환각 현상 감소 및 검증 가능성 증대
  • 인간 피드백(RLHF)을 활용하여 검색 품질과 답변의 유용성을 동시에 최적화

Learning & Inference Impact

학습 측면에서는 모델이 단순한 텍스트 생성을 넘어 검색 엔진 사용법(쿼리 생성, 링크 선택, 스크롤 등)을 익혀야 하므로 인간의 브라우징 시연 데이터셋 구축이 필수적입니다. 또한 답변 품질을 높이기 위해 인간의 선호도를 반영한 보상 모델 훈련이 추가됩니다. 추론 측면에서는 사용자의 질문에 바로 답변하는 것이 아니라, 수차례의 검색 및 정보 수집 과정을 거친 후 답변을 생성하므로 지연 시간(latency)이 발생합니다. 특히 논문에서 최고의 성능을 낸 '거부 샘플링(best-of-n)' 방식은 하나의 질문에 대해 여러 개의 답변을 생성한 뒤 보상 모델 점수가 가장 높은 것을 선택하므로, 추론 시 연산 비용(Compute)이 크게 증가합니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!