갈락티카: 과학을 위한 대규모 언어 모델
Galactica: A Large Language Model for Science
정보 과부하는 과학적 발전의 주요 장애물입니다. 과학 문헌과 데이터의 폭발적인 증가로 인해 방대한 정보 속에서 유용한 통찰을 발견하는 것이 그 어느 때보다 어려워졌습니다. 오늘날 과학적 지식은 검색 엔진을 통해 접근되지만, 검색 엔진만으로는 과학적 지식을 체계화할 수 없습니다. 본 논문에서는 과학적 지식을 저장, 결합 및 추론할 수 있는 대규모 언어 모델인 갈락티카(Galactica)를 소개합니다. 우리는 논문, 참고 자료, 지식 베이스 및 기타 여러 출처로 구성된 대규모 과학 말뭉치로 모델을 훈련시켰습니다. 우리는 다양한 과학적 과제에서 기존 모델보다 뛰어난 성능을 보였습니다. LaTeX 방정식과 같은 전문 지식 탐색에서 갈락티카는 68.2%의 성능을 기록하여 49.0%를 기록한 최신 GPT-3를 능가했습니다. 갈락티카는 추론 능력에서도 우수한 성능을 보여, 수학적 MMLU에서 41.3% 대 35.7%로 친칠라(Chinchilla)를 앞섰으며, MATH에서는 20.4% 대 8.8%의 점수로 PaLM 540B를 능가했습니다. 또한 PubMedQA와 MedMCQA dev와 같은 다운스트림 작업에서 각각 77.6%와 52.9%를 기록하며 새로운 최고 성능(SOTA)을 달성했습니다. 그리고 일반 말뭉치로 훈련되지 않았음에도 불구하고, 갈락티카는 BIG-bench에서 BLOOM과 OPT-175B보다 뛰어난 성능을 보였습니다. 우리는 이러한 결과가 과학을 위한 새로운 인터페이스로서 언어 모델의 잠재력을 입증한다고 믿습니다. 우리는 과학 커뮤니티의 이익을 위해 모델을 오픈 소스로 공개합니다.
Information overload is a major obstacle to scientific progress. The explosive growth in scientific literature and data has made it ever harder to discover useful insights in a large mass of information. Today scientific knowledge is accessed through search engines, but they are unable to organize scientific knowledge alone. In this paper we introduce Galactica: a large language model that can store, combine and reason about scientific knowledge. We train on a large scientific corpus of papers, reference material, knowledge bases and many other sources. We outperform existing models on a range of scientific tasks. On technical knowledge probes such as LaTeX equations, Galactica outperforms the latest GPT-3 by 68.2% versus 49.0%. Galactica also performs well on reasoning, outperforming Chinchilla on mathematical MMLU by 41.3% to 35.7%, and PaLM 540B on MATH with a score of 20.4% versus 8.8%. It also sets a new state-of-the-art on downstream tasks such as PubMedQA and MedMCQA dev of 77.6% and 52.9%. And despite not being trained on a general corpus, Galactica outperforms BLOOM and OPT-175B on BIG-bench. We believe these results demonstrate the potential for language models as a new interface for science. We open source the model for the benefit of the scientific community.
AI Analysis
Korean Summary
Key Innovations
- 엄선된 고품질 과학 코퍼스 사용 (논문, 지식 베이스 등 정제된 데이터)
- 특수 토큰을 활용한 다중 모달리티 처리 (인용, LaTeX 수식, SMILES 화학식, 단백질 서열 등)
- 단계별 추론을 지원하는 '<work>' (작업 메모리) 토큰 도입
- 일반 데이터와 프롬프트 데이터를 함께 학습시키는 프롬프트 사전 학습(Prompt Pre-training) 전략
Learning & Inference Impact
학습 측면에서 정제된 데이터와 태스크 프롬프트를 함께 사전 학습(Pre-training)에 포함시킴으로써, 별도의 미세 조정 없이도 다양한 과학적 작업에서 높은 제로샷 및 퓨샷 성능을 달성했습니다. 또한, 화학식이나 단백질 서열을 텍스트처럼 토큰화하여 학습함으로써 자연어와 과학적 데이터 간의 연관성을 모델이 스스로 파악하게 했습니다. 추론 측면에서는 '<work>' 토큰을 통해 모델이 내부적인 사고 과정(CoT)을 명시적으로 생성하여 복잡한 계산이나 논리적 추론의 정확도를 높였으며, 인용 토큰을 통해 실제 문맥에 맞는 논문을 예측하고 추천하는 기능을 구현하여 검색 엔진을 대체할 수 있는 가능성을 보여주었습니다.
Technical Difficulty
Estimated implementation complexity based on methodology.