2211.09085 Nov 16, 2022 cs.AI

갈락티카: 과학을 위한 대규모 언어 모델

Galactica: A Large Language Model for Science

Marcin Kardas
Marcin Kardas
Citations: 30,552
h-index: 9
Robert Stojnic
Robert Stojnic
Citations: 30,772
h-index: 12
Ross Taylor
Ross Taylor
Citations: 30,291
h-index: 8
Viktor Kerkez
Viktor Kerkez
Citations: 30,355
h-index: 8
Guillem Cucurull
Guillem Cucurull
Citations: 43,305
h-index: 15
Thomas Scialom
Thomas Scialom
Citations: 8,366
h-index: 16
A. Hartshorn
A. Hartshorn
Citations: 18,359
h-index: 22
Elvis Saravia
Elvis Saravia
Citations: 1,526
h-index: 6
Andrew Poulton
Andrew Poulton
Citations: 17,327
h-index: 10

정보 과부하는 과학적 발전의 주요 장애물입니다. 과학 문헌과 데이터의 폭발적인 증가로 인해 방대한 정보 속에서 유용한 통찰을 발견하는 것이 그 어느 때보다 어려워졌습니다. 오늘날 과학적 지식은 검색 엔진을 통해 접근되지만, 검색 엔진만으로는 과학적 지식을 체계화할 수 없습니다. 본 논문에서는 과학적 지식을 저장, 결합 및 추론할 수 있는 대규모 언어 모델인 갈락티카(Galactica)를 소개합니다. 우리는 논문, 참고 자료, 지식 베이스 및 기타 여러 출처로 구성된 대규모 과학 말뭉치로 모델을 훈련시켰습니다. 우리는 다양한 과학적 과제에서 기존 모델보다 뛰어난 성능을 보였습니다. LaTeX 방정식과 같은 전문 지식 탐색에서 갈락티카는 68.2%의 성능을 기록하여 49.0%를 기록한 최신 GPT-3를 능가했습니다. 갈락티카는 추론 능력에서도 우수한 성능을 보여, 수학적 MMLU에서 41.3% 대 35.7%로 친칠라(Chinchilla)를 앞섰으며, MATH에서는 20.4% 대 8.8%의 점수로 PaLM 540B를 능가했습니다. 또한 PubMedQA와 MedMCQA dev와 같은 다운스트림 작업에서 각각 77.6%와 52.9%를 기록하며 새로운 최고 성능(SOTA)을 달성했습니다. 그리고 일반 말뭉치로 훈련되지 않았음에도 불구하고, 갈락티카는 BIG-bench에서 BLOOM과 OPT-175B보다 뛰어난 성능을 보였습니다. 우리는 이러한 결과가 과학을 위한 새로운 인터페이스로서 언어 모델의 잠재력을 입증한다고 믿습니다. 우리는 과학 커뮤니티의 이익을 위해 모델을 오픈 소스로 공개합니다.

Original Abstract

Information overload is a major obstacle to scientific progress. The explosive growth in scientific literature and data has made it ever harder to discover useful insights in a large mass of information. Today scientific knowledge is accessed through search engines, but they are unable to organize scientific knowledge alone. In this paper we introduce Galactica: a large language model that can store, combine and reason about scientific knowledge. We train on a large scientific corpus of papers, reference material, knowledge bases and many other sources. We outperform existing models on a range of scientific tasks. On technical knowledge probes such as LaTeX equations, Galactica outperforms the latest GPT-3 by 68.2% versus 49.0%. Galactica also performs well on reasoning, outperforming Chinchilla on mathematical MMLU by 41.3% to 35.7%, and PaLM 540B on MATH with a score of 20.4% versus 8.8%. It also sets a new state-of-the-art on downstream tasks such as PubMedQA and MedMCQA dev of 77.6% and 52.9%. And despite not being trained on a general corpus, Galactica outperforms BLOOM and OPT-175B on BIG-bench. We believe these results demonstrate the potential for language models as a new interface for science. We open source the model for the benefit of the scientific community.

974 Citations
97 Influential
11 Altmetric
1,223.0 Score

AI Analysis

Korean Summary

Meta AI가 개발한 Galactica는 과학 정보의 폭발적인 증가 문제를 해결하기 위해 고안된 거대 언어 모델(LLM)입니다. 웹 크롤링 데이터 대신 4,800만 편의 논문, 교과서, 참고 자료 등 엄선된 고품질 과학 코퍼스(1,060억 토큰)로 훈련되었습니다. 이 모델은 텍스트뿐만 아니라 수식(LaTeX), 화학 분자식(SMILES), 단백질 서열 등을 특수 토큰으로 처리하여 과학적 지식을 저장, 결합 및 추론할 수 있습니다. Galactica는 수학, 코딩, 화학, 생물학 등 다양한 과학 벤치마크에서 GPT-3나 Chinchilla와 같은 기존 모델을 능가하는 성능을 보였으며, 특히 인용 예측 및 단계별 추론 능력에서 두각을 나타냈습니다.

Key Innovations

  • 엄선된 고품질 과학 코퍼스 사용 (논문, 지식 베이스 등 정제된 데이터)
  • 특수 토큰을 활용한 다중 모달리티 처리 (인용, LaTeX 수식, SMILES 화학식, 단백질 서열 등)
  • 단계별 추론을 지원하는 '<work>' (작업 메모리) 토큰 도입
  • 일반 데이터와 프롬프트 데이터를 함께 학습시키는 프롬프트 사전 학습(Prompt Pre-training) 전략

Learning & Inference Impact

학습 측면에서 정제된 데이터와 태스크 프롬프트를 함께 사전 학습(Pre-training)에 포함시킴으로써, 별도의 미세 조정 없이도 다양한 과학적 작업에서 높은 제로샷 및 퓨샷 성능을 달성했습니다. 또한, 화학식이나 단백질 서열을 텍스트처럼 토큰화하여 학습함으로써 자연어와 과학적 데이터 간의 연관성을 모델이 스스로 파악하게 했습니다. 추론 측면에서는 '<work>' 토큰을 통해 모델이 내부적인 사고 과정(CoT)을 명시적으로 생성하여 복잡한 계산이나 논리적 추론의 정확도를 높였으며, 인용 토큰을 통해 실제 문맥에 맞는 논문을 예측하고 추천하는 기능을 구현하여 검색 엔진을 대체할 수 있는 가능성을 보여주었습니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!