Med-V1: 제로샷 학습 및 확장 가능한 생물 의학 증거 추론을 위한 소형 언어 모델
Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution
논문이 특정 주장을 뒷받침하는지 여부를 평가하는 것은 환각 탐지 및 주장 검증에 필수적입니다. 대규모 언어 모델(LLM)은 이 작업을 자동화할 잠재력을 가지고 있지만, 강력한 성능을 달성하려면 GPT-5와 같은 최첨단 모델이 필요하며, 이는 대규모 배포에 매우 비쌉니다. 효율적인 생물 의학 증거 추론을 위해, 본 연구에서는 총 30억 개의 파라미터만을 가진 소형 언어 모델인 Med-V1 패밀리를 제안합니다. 본 연구에서 새로 개발된 고품질 합성 데이터로 훈련된 Med-V1은 다섯 가지 생물 의학 벤치마크에서 기본 모델보다 현저하게 우수한 성능(+27.0% ~ +71.3%)을 보입니다. Med-V1은 크기가 작음에도 불구하고 GPT-5와 같은 최첨단 LLM과 유사한 성능을 보이며, 예측에 대한 고품질 설명을 제공합니다. 우리는 Med-V1을 사용하여 LLM이 생성한 답변에서 다양한 인용 지침 하에 발생하는 환각을 정량적으로 분석하는 최초의 사례 연구를 수행했습니다. 결과에 따르면 형식 지침은 인용의 유효성과 환각에 큰 영향을 미치며, GPT-5는 더 많은 주장을 생성하지만 GPT-4o와 유사한 환각률을 보였습니다. 또한, Med-V1이 임상 지침에서 중요한 증거의 잘못된 인용을 자동으로 식별하여, 대규모로 파악하기 어려운 잠재적인 부정적인 공중 보건 영향을 드러낼 수 있는 또 다른 사례 연구를 제시합니다. 전반적으로, Med-V1은 생물 의학 증거 추론 및 검증 작업에 대한 실용적이고 실제적인 응용 분야에서 최첨단 LLM에 대한 효율적이고 정확하며 가벼운 대안을 제공합니다. Med-V1은 https://github.com/ncbi-nlp/Med-V1 에서 이용 가능합니다.
Assessing whether an article supports an assertion is essential for hallucination detection and claim verification. While large language models (LLMs) have the potential to automate this task, achieving strong performance requires frontier models such as GPT-5 that are prohibitively expensive to deploy at scale. To efficiently perform biomedical evidence attribution, we present Med-V1, a family of small language models with only three billion parameters. Trained on high-quality synthetic data newly developed in this study, Med-V1 substantially outperforms (+27.0% to +71.3%) its base models on five biomedical benchmarks unified into a verification format. Despite its smaller size, Med-V1 performs comparably to frontier LLMs such as GPT-5, along with high-quality explanations for its predictions. We use Med-V1 to conduct a first-of-its-kind use case study that quantifies hallucinations in LLM-generated answers under different citation instructions. Results show that the format instruction strongly affects citation validity and hallucination, with GPT-5 generating more claims but exhibiting hallucination rates similar to GPT-4o. Additionally, we present a second use case showing that Med-V1 can automatically identify high-stakes evidence misattributions in clinical practice guidelines, revealing potentially negative public health impacts that are otherwise challenging to identify at scale. Overall, Med-V1 provides an efficient and accurate lightweight alternative to frontier LLMs for practical and real-world applications in biomedical evidence attribution and verification tasks. Med-V1 is available at https://github.com/ncbi-nlp/Med-V1.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.