WebGPT: 인간 피드백을 활용한 브라우저 보조 질의응답
WebGPT: Browser-assisted question-answering with human feedback
우리는 모델이 웹을 검색하고 탐색할 수 있는 텍스트 기반 웹 브라우징 환경을 사용하여, 서술형 질문에 답변하도록 GPT-3를 미세 조정(fine-tune)했습니다. 인간이 수행할 수 있는 방식으로 작업을 구성함으로써 모방 학습(imitation learning)을 사용하여 모델을 훈련시킨 뒤, 인간 피드백을 통해 답변의 품질을 최적화할 수 있었습니다. 사실적 정확성에 대한 인간의 평가를 돕기 위해, 모델은 브라우징 중에 답변을 뒷받침하는 출처를 수집해야 합니다. 우리는 레딧(Reddit) 사용자들이 작성한 질문 데이터셋인 ELI5를 사용하여 모델을 훈련하고 평가했습니다. 가장 성능이 뛰어난 모델은 행동 복제(behavior cloning)를 사용하여 GPT-3를 미세 조정한 후, 인간 선호도를 예측하도록 훈련된 보상 모델을 기반으로 기각 샘플링(rejection sampling)을 수행하여 얻어졌습니다. 이 모델의 답변은 인간 시연자의 답변보다 56%, 레딧에서 가장 많은 추천을 받은 답변보다 69%의 비율로 인간에게 더 선호되었습니다.
We fine-tune GPT-3 to answer long-form questions using a text-based web-browsing environment, which allows the model to search and navigate the web. By setting up the task so that it can be performed by humans, we are able to train models on the task using imitation learning, and then optimize answer quality with human feedback. To make human evaluation of factual accuracy easier, models must collect references while browsing in support of their answers. We train and evaluate our models on ELI5, a dataset of questions asked by Reddit users. Our best model is obtained by fine-tuning GPT-3 using behavior cloning, and then performing rejection sampling against a reward model trained to predict human preferences. This model's answers are preferred by humans 56% of the time to those of our human demonstrators, and 69% of the time to the highest-voted answer from Reddit.
AI Analysis
Korean Summary
Key Innovations
- LLM이 상호작용할 수 있는 텍스트 기반 웹 브라우징 환경 및 명령어(검색, 클릭, 인용 등) 구축
- 행동 복제(BC), 보상 모델링(RM), 강화 학습(RL), 거부 샘플링(Rejection Sampling)을 통합한 훈련 파이프라인 적용
- 브라우징 중 수집한 정보를 바탕으로 참조(Reference)가 포함된 답변을 생성하여 환각 현상 감소 및 검증 가능성 증대
- 인간 피드백(RLHF)을 활용하여 검색 품질과 답변의 유용성을 동시에 최적화
Learning & Inference Impact
학습 측면에서는 모델이 단순한 텍스트 생성을 넘어 검색 엔진 사용법(쿼리 생성, 링크 선택, 스크롤 등)을 익혀야 하므로 인간의 브라우징 시연 데이터셋 구축이 필수적입니다. 또한 답변 품질을 높이기 위해 인간의 선호도를 반영한 보상 모델 훈련이 추가됩니다. 추론 측면에서는 사용자의 질문에 바로 답변하는 것이 아니라, 수차례의 검색 및 정보 수집 과정을 거친 후 답변을 생성하므로 지연 시간(latency)이 발생합니다. 특히 논문에서 최고의 성능을 낸 '거부 샘플링(best-of-n)' 방식은 하나의 질문에 대해 여러 개의 답변을 생성한 뒤 보상 모델 점수가 가장 높은 것을 선택하므로, 추론 시 연산 비용(Compute)이 크게 증가합니다.
Technical Difficulty
Estimated implementation complexity based on methodology.