MARVEL: 대규모 언어 모델을 활용한 다중 에이전트 기반 연구 검증 및 지원 시스템
MARVEL: A Multi Agent-based Research Validator and Enabler using Large Language Models
본 논문에서는 로컬 환경에 배포 가능한 오픈 소스 프레임워크인 MARVEL (https://ligogpt.mit.edu/marvel)을 소개합니다. 이 프레임워크는 특정 분야에 대한 지식을 가진 질문 응답 및 과학 연구 지원을 목표로 설계되었으며, 복잡한 기술 데이터를 이해하고 정확하게 인용하며 인증된 네트워크 환경에서 작동할 수 있는 과학 그룹을 위한 디지털 어시스턴트의 증가하는 요구 사항을 해결하고자 합니다. MARVEL은 간단한 질의에 대한 빠른 응답 경로와 함께, 검색 증강 생성(Retrieval-Augmented Generation) 및 몬테카를로 트리 탐색(Monte Carlo Tree Search)을 통합한 보다 심층적인 DeepSearch 모드를 제공합니다. 이 시스템은 상호 보완적인 하위 질의를 탐색하고, 유망한 영역에 더 많은 계산 자원을 할당하며, 초안 작성 과정에서 출처를 보존하는 글로벌 증거 장부를 유지합니다. 본 연구에서는 중력파 연구, 특히 레이저 간섭계 중력파 관측소(LIGO)와 관련된 분야에 이 프레임워크를 적용했습니다. 답변은 선별된 연구 논문, 박사 학위 논문, LIGO 문서 및 장기간 운영된 검출기 전자 로그북의 의미론적 인덱스를 기반으로 하며, 필요한 경우 특정 웹 검색을 수행합니다. 상업용 LLM과의 직접적인 성능 비교는 비공개 데이터에 대해 수행할 수 없으므로, 우리는 MARVEL의 성능을 유사한 의미론적 및 기술적 특성을 가진 두 개의 공개 데이터 세트를 사용하여 평가했습니다. 이러한 평가에서 MARVEL은 문헌 중심 질의에 대해 GPT-4o의 최소 성능을 능가하며, 검출기 운영 관련 콘텐츠에서는 훨씬 더 뛰어난 성능을 보입니다. 이 프레임워크와 평가 데이터 세트를 공개적으로 제공함으로써, 특정 분야에 특화된 과학 어시스턴트 개발을 위한 재현 가능한 기반을 제공하고자 합니다.
We present MARVEL (https://ligogpt.mit.edu/marvel), a locally deployable, open-source framework for domain-aware question answering and assisted scientific research. It is designed to address the increasing demands of a digital assistant for scientific groups that can read highly technical data, cite precisely, and operate within authenticated networks. MARVEL combines a fast path for straightforward queries with a more deliberate DeepSearch mode that integrates retrieval-augmented generation and Monte Carlo Tree Search. It explores complementary subqueries, allocates more compute to promising branches, and maintains a global evidence ledger that preserves sources during drafting. We applied this framework in the context of gravitational-wave research related to the Laser Interferometer Gravitational-wave Observatory. Answers are grounded in a curated semantic index of research literature, doctoral theses, LIGO documents, and long-running detector electronic logbooks, with targeted web searches when appropriate. Because direct benchmarking against commercial LLMs cannot be performed on private data, we evaluated MARVEL on two publicly available surrogate datasets that capture comparable semantic and technical characteristics. On these benchmarks, MARVEL matches a GPT-4o mini baseline on literature-centric queries and substantially outperforms it on detector-operations content, where domain retrieval and guided reasoning are decisive. By making the complete framework and evaluation datasets openly available, we aim to provide a reproducible foundation for developing domain-specific scientific assistants.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.