BAGEL: 언어 모델의 동물 지식 전문성 벤치마킹
BAGEL: Benchmarking Animal Knowledge Expertise in Language Models
대규모 언어 모델은 광범위한 지식 및 추론 벤치마크에서 뛰어난 성능을 보여주었지만, 통일된 폐쇄형 평가 프로토콜 하에서 언어 모델이 전문적인 동물 관련 지식을 얼마나 잘 처리하는지는 아직 명확하지 않습니다. 본 연구에서는 언어 모델의 동물 지식 전문성을 평가하기 위한 벤치마크인 BAGEL을 소개합니다. BAGEL은 bioRxiv, Global Biotic Interactions, Xeno-canto 및 Wikipedia를 포함한 다양한 과학 및 참고 자료를 활용하여 구축되었으며, 선별된 예제와 자동으로 생성된 폐쇄형 질문-답변 쌍을 결합하여 구성되었습니다. 이 벤치마크는 분류학, 형태, 서식지, 행동, 발성, 지리적 분포 및 종 간 상호 작용을 포함한 다양한 측면의 동물 지식을 다룹니다. BAGEL은 추론 시 외부 검색 없이 모델의 동물 관련 지식을 측정하는 폐쇄형 평가에 중점을 둡니다. 또한 BAGEL은 출처 도메인, 분류학적 그룹 및 지식 범주에 따른 세분화된 분석을 지원하여 모델의 강점과 체계적인 오류 패턴을 보다 정확하게 파악할 수 있도록 합니다. 본 벤치마크는 언어 모델의 도메인별 지식 일반화 연구를 위한 새로운 플랫폼을 제공하며, 생물 다양성 관련 응용 분야에서 모델의 신뢰성을 향상시키는 데 기여할 것입니다.
Large language models have shown strong performance on broad-domain knowledge and reasoning benchmarks, but it remains unclear how well language models handle specialized animal-related knowledge under a unified closed-book evaluation protocol. We introduce BAGEL, a benchmark for evaluating animal knowledge expertise in language models. BAGEL is constructed from diverse scientific and reference sources, including bioRxiv, Global Biotic Interactions, Xeno-canto, and Wikipedia, using a combination of curated examples and automatically generated closed-book question-answer pairs. The benchmark covers multiple aspects of animal knowledge, including taxonomy, morphology, habitat, behavior, vocalization, geographic distribution, and species interactions. By focusing on closed-book evaluation, BAGEL measures animal-related knowledge of models without external retrieval at inference time. BAGEL further supports fine-grained analysis across source domains, taxonomic groups, and knowledge categories, enabling a more precise characterization of model strengths and systematic failure modes. Our benchmark provides a new testbed for studying domain-specific knowledge generalization in language models and for improving their reliability in biodiversity-related applications.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.