2101.00027 Dec 31, 2020 cs.AI

The Pile: 언어 모델링을 위한 800GB 규모의 다양한 텍스트 데이터셋

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

Leo Gao
Leo Gao
EleutherAI
Citations: 36,307
h-index: 16
Stella Biderman
Stella Biderman
Booz Allen Hamilton
Citations: 18,658
h-index: 32
Sid Black
Sid Black
Citations: 5,019
h-index: 9
Laurence Golding
Laurence Golding
Citations: 3,845
h-index: 6
Travis Hoppe
Travis Hoppe
National Institutes of Health
Citations: 3,501
h-index: 10
Charles Foster
Charles Foster
Citations: 2,665
h-index: 2
Jason Phang
Jason Phang
Citations: 12,871
h-index: 27
Horace He
Horace He
Citations: 4,331
h-index: 6
Anish Thite
Anish Thite
Citations: 2,671
h-index: 3
Noa Nabeshima
Noa Nabeshima
Citations: 2,735
h-index: 2
Shawn Presser
Shawn Presser
Citations: 2,662
h-index: 1
Connor Leahy
Connor Leahy
Citations: 4,642
h-index: 5

최근 연구들은 훈련 데이터셋의 다양성을 높이는 것이 대규모 언어 모델의 일반적인 교차 도메인 지식과 다운스트림 일반화 능력을 향상시킨다는 것을 보여주었습니다. 이를 염두에 두고, 우리는 대규모 언어 모델 훈련을 목표로 하는 825 GiB 규모의 영어 텍스트 말뭉치인 'The Pile'을 제시합니다. The Pile은 22개의 다양하고 품질 높은 서브셋(기존 자료와 새롭게 구축된 자료 포함)으로 구성되어 있으며, 그 중 다수는 학술적 또는 전문적 출처에서 유래했습니다. The Pile에 대해 별도의 튜닝을 거치지 않은 GPT-2와 GPT-3의 성능을 평가한 결과, 이 모델들이 학술적 작문과 같은 데이터셋의 여러 구성 요소에서 어려움을 겪는 것으로 나타났습니다. 반대로, The Pile로 훈련한 모델들은 The Pile의 모든 구성 요소에서 Raw CC 및 CC-100에 비해 성능이 크게 향상되었으며, 다운스트림 평가에서도 성능 개선을 보였습니다. 또한 심층적인 탐색적 분석을 통해 잠재적 사용자들이 유의해야 할 데이터의 우려스러운 측면들을 문서화했습니다. 우리는 이 데이터셋 구축에 사용된 코드를 공개합니다.

Original Abstract

Recent work has demonstrated that increased training dataset diversity improves general cross-domain knowledge and downstream generalization capability for large-scale language models. With this in mind, we present \textit{the Pile}: an 825 GiB English text corpus targeted at training large-scale language models. The Pile is constructed from 22 diverse high-quality subsets -- both existing and newly constructed -- many of which derive from academic or professional sources. Our evaluation of the untuned performance of GPT-2 and GPT-3 on the Pile shows that these models struggle on many of its components, such as academic writing. Conversely, models trained on the Pile improve significantly over both Raw CC and CC-100 on all components of the Pile, while improving performance on downstream evaluations. Through an in-depth exploratory analysis, we document potentially concerning aspects of the data for prospective users. We make publicly available the code used in its construction.

2673 Citations
391 Influential
16 Altmetric
3,535.0 Score

AI Analysis

Korean Summary

이 논문은 대규모 언어 모델(LLM)의 일반화 능력과 교차 도메인 지식 습득을 향상시키기 위해 설계된 825.18 GiB 규모의 오픈 소스 영어 텍스트 데이터셋인 'The Pile'을 소개합니다. 기존의 Common Crawl 기반 데이터셋들이 전문적인 지식이나 학술적 문맥에서 부족함을 보이는 점을 보완하기 위해, The Pile은 PubMed, ArXiv, GitHub, FreeLaw, Wikipedia 등 22개의 다양하고 고품질인 하위 데이터셋으로 구성되었습니다. 저자들은 The Pile로 학습된 모델이 기존 Raw Common Crawl이나 CC-100으로 학습된 모델보다 다양한 벤치마크에서 우수한 성능을 보임을 입증했으며, 데이터셋 내의 편향성, 유해 콘텐츠, 법적 문제 등에 대한 심층적인 분석과 문서화를 제공하여 연구 투명성을 높였습니다.

Key Innovations

  • 단순 웹 크롤링을 넘어 학술, 법률, 프로그래밍, 대화 등 22개의 다양한 도메인을 포괄하는 825GB 대규모 코퍼스 구축
  • ArXiv, PubMed, GitHub, FreeLaw 등을 포함한 14개의 새로운 언어 모델링용 데이터셋 도입
  • Common Crawl 기반 모델이 취약한 전문 분야(학술적 글쓰기, 코드 등)에서의 성능 개선 입증
  • 데이터셋의 구성, 성별/종교적 편향, 유해성, 저작권 문제 등을 상세히 기록한 철저한 문서화 및 분석 수행

Learning & Inference Impact

The Pile 데이터셋을 학습에 활용함으로써 언어 모델은 웹 텍스트에 편중되지 않고 의학, 물리학, 법률, 프로그래밍 코드 등 전문적인 도메인의 지식을 효과적으로 습득할 수 있습니다. 실험 결과, The Pile로 학습된 모델은 기존의 Common Crawl 기반 모델 대비 LAMBADA나 WikiText와 같은 표준 벤치마크뿐만 아니라 전문 분야의 홀드아웃(held-out) 데이터셋에서도 현저히 낮은 Perplexity(혼란도)를 기록하며 더 뛰어난 다운스트림 일반화 성능을 보여주었습니다. 이는 데이터의 양뿐만 아니라 '다양성'이 모델의 추론 능력과 범용성을 높이는 데 핵심적인 요소임을 시사합니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!