ScienceDB AI: 대규모 과학 데이터 공유 서비스를 위한 LLM 기반 에이전트 추천 시스템
ScienceDB AI: An LLM-Driven Agentic Recommender System for Large-Scale Scientific Data Sharing Services
인공지능을 활용한 과학 연구(AI4S)의 급속한 발전은 과학 데이터셋의 중요성을 강조하며, 수많은 국가 과학 데이터 센터 및 공유 플랫폼 설립으로 이어졌습니다. 하지만 이러한 발전에도 불구하고, 과학 연구를 위한 데이터셋 공유 및 활용을 효율적으로 촉진하는 것은 여전히 어려운 과제입니다. 과학 데이터셋은 복잡한 도메인 특화 지식과 맥락을 포함하며, 이는 전통적인 협업 필터링 기반 추천 시스템으로는 충분히 대응하기 어렵습니다. 최근의 대규모 언어 모델(LLM) 발전은 심층적인 의미 이해와 개인 맞춤형 추천을 가능하게 하는 대화형 에이전트 구축에 대한 전례 없는 기회를 제공합니다. 이에 따라, 본 논문에서는 Science Data Bank (ScienceDB)라는 세계 최대 규모의 과학 데이터 공유 플랫폼을 기반으로 개발된 새로운 LLM 기반 에이전트 추천 시스템인 ScienceDB AI를 소개합니다. ScienceDB AI는 자연어 대화를 활용하고 심층적인 추론을 통해 연구자의 과학적 의도와 변화하는 요구 사항에 부합하는 데이터셋을 정확하게 추천합니다. 본 시스템은 다음과 같은 혁신적인 기능을 제공합니다. 복잡한 질의에서 구조화된 실험 요소를 추출하는 과학적 의도 인식기(Scientific Intention Perceptor), 다중 턴 대화를 효과적으로 관리하는 구조화된 메모리 압축기(Structured Memory Compressor), 그리고 추천의 신뢰성과 재현성을 향상시키는 신뢰성 있는 검색 증강 생성(Trustworthy RAG) 프레임워크입니다. Trustworthy RAG은 두 단계의 검색 메커니즘을 사용하며, Citable Scientific Task Record (CSTR) 식별자를 통해 인용 가능한 데이터셋 레퍼런스를 제공합니다. 1천만 건 이상의 실제 데이터셋을 사용한 광범위한 오프라인 및 온라인 실험을 통해 ScienceDB AI는 상당한 효과를 입증했습니다. 현재까지 알려진 바로는, ScienceDB AI는 대규모 과학 데이터 공유 서비스에 특화된 최초의 LLM 기반 대화형 추천 시스템입니다. 본 플랫폼은 다음 주소에서 공개적으로 이용할 수 있습니다: https://ai.scidb.cn/en.
The rapid growth of AI for Science (AI4S) has underscored the significance of scientific datasets, leading to the establishment of numerous national scientific data centers and sharing platforms. Despite this progress, efficiently promoting dataset sharing and utilization for scientific research remains challenging. Scientific datasets contain intricate domain-specific knowledge and contexts, rendering traditional collaborative filtering-based recommenders inadequate. Recent advances in Large Language Models (LLMs) offer unprecedented opportunities to build conversational agents capable of deep semantic understanding and personalized recommendations. In response, we present ScienceDB AI, a novel LLM-driven agentic recommender system developed on Science Data Bank (ScienceDB), one of the largest global scientific data-sharing platforms. ScienceDB AI leverages natural language conversations and deep reasoning to accurately recommend datasets aligned with researchers' scientific intents and evolving requirements. The system introduces several innovations: a Scientific Intention Perceptor to extract structured experimental elements from complicated queries, a Structured Memory Compressor to manage multi-turn dialogues effectively, and a Trustworthy Retrieval-Augmented Generation (Trustworthy RAG) framework. The Trustworthy RAG employs a two-stage retrieval mechanism and provides citable dataset references via Citable Scientific Task Record (CSTR) identifiers, enhancing recommendation trustworthiness and reproducibility. Through extensive offline and online experiments using over 10 million real-world datasets, ScienceDB AI has demonstrated significant effectiveness. To our knowledge, ScienceDB AI is the first LLM-driven conversational recommender tailored explicitly for large-scale scientific dataset sharing services. The platform is publicly accessible at: https://ai.scidb.cn/en.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.