언어 모델은 퓨샷 학습자(Few-Shot Learners)입니다
Language Models are Few-Shot Learners
최근 연구들은 대규모 텍스트 코퍼스로 사전 학습(pre-training)한 후 특정 태스크에 대해 미세 조정(fine-tuning)을 수행함으로써 많은 NLP 태스크 및 벤치마크에서 상당한 성능 향상을 입증했습니다. 이 방법은 일반적으로 아키텍처 측면에서는 태스크 불가지론적(task-agnostic)이지만, 여전히 수천에서 수만 개의 예제로 구성된 태스크별 미세 조정 데이터셋을 필요로 합니다. 이와 대조적으로, 인간은 일반적으로 소수의 예제나 간단한 지시만으로도 새로운 언어 태스크를 수행할 수 있는데, 이는 현재의 NLP 시스템이 여전히 크게 어려워하는 부분입니다. 본 논문에서는 언어 모델의 규모를 키우는 것이 태스크 불가지론적인 퓨샷(few-shot) 성능을 크게 향상시키며, 때로는 기존의 최첨단 미세 조정 접근 방식과 경쟁할 수 있는 수준에 도달함을 보여줍니다. 구체적으로, 우리는 이전의 어떠한 비희소(non-sparse) 언어 모델보다 10배 더 많은 1,750억 개의 파라미터를 가진 자기회귀 언어 모델인 GPT-3를 훈련시키고, 퓨샷 설정에서 그 성능을 테스트합니다. 모든 태스크에 대해 GPT-3는 어떠한 그래디언트 업데이트나 미세 조정 없이 적용되며, 태스크와 퓨샷 예시는 순수하게 모델과의 텍스트 상호작용을 통해 명시됩니다. GPT-3는 번역, 질의응답, 빈칸 채우기 태스크를 포함한 많은 NLP 데이터셋에서 강력한 성능을 달성할 뿐만 아니라, 단어 순서 맞추기, 문장 내 새로운 단어 사용하기, 3자리 수 연산 수행하기 등 즉각적인 추론이나 도메인 적응이 필요한 여러 태스크에서도 우수한 성능을 보입니다. 동시에, 우리는 GPT-3의 퓨샷 학습이 여전히 고전하는 일부 데이터셋과, 대규모 웹 코퍼스 학습과 관련된 방법론적 문제에 직면하는 일부 데이터셋 또한 확인합니다. 마지막으로, 우리는 GPT-3가 인간 평가자들이 인간이 쓴 기사와 구별하기 어려워할 정도의 뉴스 기사 샘플을 생성할 수 있음을 발견했습니다. 우리는 이러한 발견과 GPT-3 전반에 대한 광범위한 사회적 영향에 대해 논의합니다.
Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fine-tuning datasets of thousands or tens of thousands of examples. By contrast, humans can generally perform a new language task from only a few examples or from simple instructions - something which current NLP systems still largely struggle to do. Here we show that scaling up language models greatly improves task-agnostic, few-shot performance, sometimes even reaching competitiveness with prior state-of-the-art fine-tuning approaches. Specifically, we train GPT-3, an autoregressive language model with 175 billion parameters, 10x more than any previous non-sparse language model, and test its performance in the few-shot setting. For all tasks, GPT-3 is applied without any gradient updates or fine-tuning, with tasks and few-shot demonstrations specified purely via text interaction with the model. GPT-3 achieves strong performance on many NLP datasets, including translation, question-answering, and cloze tasks, as well as several tasks that require on-the-fly reasoning or domain adaptation, such as unscrambling words, using a novel word in a sentence, or performing 3-digit arithmetic. At the same time, we also identify some datasets where GPT-3's few-shot learning still struggles, as well as some datasets where GPT-3 faces methodological issues related to training on large web corpora. Finally, we find that GPT-3 can generate samples of news articles which human evaluators have difficulty distinguishing from articles written by humans. We discuss broader societal impacts of this finding and of GPT-3 in general.
AI Analysis
Korean Summary
Key Innovations
- 1,750억 개 파라미터 규모의 모델 스케일링
- 그래디언트 업데이트 없는 인컨텍스트 러닝(In-context Learning) 메커니즘 정립
- Zero-shot, One-shot, Few-shot 설정에 따른 체계적인 성능 분석
- Common Crawl 기반의 대규모 고품질 학습 데이터셋 구축 및 필터링 기법
- Transformer 아키텍처 내 Dense 및 Sparse Attention 패턴의 교차 적용
Learning & Inference Impact
학습 과정에서는 압도적인 규모의 데이터와 연산 자원을 투입하여 범용적인 언어 표현을 학습하는 데 집중합니다. 기존 방식과 달리, 추론 단계에서는 특정 작업을 위해 모델의 가중치를 업데이트(Fine-tuning)할 필요가 없습니다. 대신 사용자가 입력 프롬프트에 작업 설명이나 예시를 포함시키는 것만으로 모델이 즉각적으로 작업에 적응하여 결과를 생성합니다. 이는 작업별로 대규모 라벨링 데이터셋을 구축해야 하는 비용을 제거하고, 하나의 모델로 다양한 NLP 작업을 처리할 수 있는 패러다임의 전환을 가져왔습니다.
Technical Difficulty
Estimated implementation complexity based on methodology.