ChemLLM: 화학 대규모 언어 모델
ChemLLM: A Chemical Large Language Model
대규모 언어 모델(LLM)은 화학 응용 분야에서 인상적인 발전을 이루었습니다. 그러나 학계에는 화학을 위해 특별히 설계된 LLM이 부족한 실정입니다. 주요 과제는 두 가지입니다. 첫째, 대부분의 화학 데이터와 과학 지식은 구조화된 데이터베이스에 저장되어 있어, 이를 직접 사용할 경우 모델이 일관된 대화를 유지하는 능력이 제한됩니다. 둘째, 대부분의 화학 태스크를 포괄하는 객관적이고 공정한 벤치마크가 부재합니다. 이에 우리는 최초의 화학 전용 LLM을 특징으로 하는 포괄적인 프레임워크인 ChemLLM을 소개합니다. 여기에는 지시 튜닝(instruction tuning)을 위해 특별히 설계된 데이터셋인 ChemData와 9가지 필수 화학 태스크를 다루는 강력한 벤치마크인 ChemBench가 포함됩니다. ChemLLM은 유연한 대화 상호작용을 통해 다양한 화학 분야의 태스크를 능숙하게 수행합니다. 특히, ChemLLM은 핵심 화학 태스크에서 GPT-4와 대등한 결과를 달성하며, 일반적인 시나리오에서도 유사한 크기의 LLM과 경쟁력 있는 성능을 보여줍니다. ChemLLM은 화학 연구 탐구의 새로운 길을 제시하며, 구조화된 화학 지식을 대화 시스템에 통합하는 우리의 방법은 다양한 과학 분야의 LLM 개발에 새로운 표준을 정립합니다. 코드, 데이터셋 및 모델 가중치는 https://hf.co/AI4Chem에서 공개적으로 이용할 수 있습니다.
Large language models (LLMs) have made impressive progress in chemistry applications. However, the community lacks an LLM specifically designed for chemistry. The main challenges are two-fold: firstly, most chemical data and scientific knowledge are stored in structured databases, which limits the model's ability to sustain coherent dialogue when used directly. Secondly, there is an absence of objective and fair benchmark that encompass most chemistry tasks. Here, we introduce ChemLLM, a comprehensive framework that features the first LLM dedicated to chemistry. It also includes ChemData, a dataset specifically designed for instruction tuning, and ChemBench, a robust benchmark covering nine essential chemistry tasks. ChemLLM is adept at performing various tasks across chemical disciplines with fluid dialogue interaction. Notably, ChemLLM achieves results comparable to GPT-4 on the core chemical tasks and demonstrates competitive performance with LLMs of similar size in general scenarios. ChemLLM paves a new path for exploration in chemical studies, and our method of incorporating structured chemical knowledge into dialogue systems sets a new standard for developing LLMs in various scientific fields. Codes, Datasets, and Model weights are publicly accessible at https://hf.co/AI4Chem
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.