2604.16241v1 Apr 17, 2026 cs.CL

BAGEL: 언어 모델의 동물 지식 전문성 벤치마킹

BAGEL: Benchmarking Animal Knowledge Expertise in Language Models

Jiacheng Shen
Jiacheng Shen
Citations: 30
h-index: 3
Mathieu Laurière
Mathieu Laurière
Citations: 64
h-index: 5
Masato Hagiwara
Masato Hagiwara
Citations: 89
h-index: 6
Milad Alizadeh
Milad Alizadeh
Citations: 981
h-index: 11
Ellen Gilsenan-McMahon
Ellen Gilsenan-McMahon
Citations: 185
h-index: 3
Marius Miron
Marius Miron
Citations: 73
h-index: 4
David Robinson
David Robinson
Citations: 0
h-index: 0
Emmanuel Chemla
Emmanuel Chemla
Citations: 2
h-index: 1
Sara Keen
Sara Keen
Citations: 12
h-index: 2
G. Narula
G. Narula
Citations: 41
h-index: 5
Matthieu Geist
Matthieu Geist
Citations: 842
h-index: 7
Olivier Pietquin
Olivier Pietquin
Citations: 104
h-index: 6

대규모 언어 모델은 광범위한 지식 및 추론 벤치마크에서 뛰어난 성능을 보여주었지만, 통일된 폐쇄형 평가 프로토콜 하에서 언어 모델이 전문적인 동물 관련 지식을 얼마나 잘 처리하는지는 아직 명확하지 않습니다. 본 연구에서는 언어 모델의 동물 지식 전문성을 평가하기 위한 벤치마크인 BAGEL을 소개합니다. BAGEL은 bioRxiv, Global Biotic Interactions, Xeno-canto 및 Wikipedia를 포함한 다양한 과학 및 참고 자료를 활용하여 구축되었으며, 선별된 예제와 자동으로 생성된 폐쇄형 질문-답변 쌍을 결합하여 구성되었습니다. 이 벤치마크는 분류학, 형태, 서식지, 행동, 발성, 지리적 분포 및 종 간 상호 작용을 포함한 다양한 측면의 동물 지식을 다룹니다. BAGEL은 추론 시 외부 검색 없이 모델의 동물 관련 지식을 측정하는 폐쇄형 평가에 중점을 둡니다. 또한 BAGEL은 출처 도메인, 분류학적 그룹 및 지식 범주에 따른 세분화된 분석을 지원하여 모델의 강점과 체계적인 오류 패턴을 보다 정확하게 파악할 수 있도록 합니다. 본 벤치마크는 언어 모델의 도메인별 지식 일반화 연구를 위한 새로운 플랫폼을 제공하며, 생물 다양성 관련 응용 분야에서 모델의 신뢰성을 향상시키는 데 기여할 것입니다.

Original Abstract

Large language models have shown strong performance on broad-domain knowledge and reasoning benchmarks, but it remains unclear how well language models handle specialized animal-related knowledge under a unified closed-book evaluation protocol. We introduce BAGEL, a benchmark for evaluating animal knowledge expertise in language models. BAGEL is constructed from diverse scientific and reference sources, including bioRxiv, Global Biotic Interactions, Xeno-canto, and Wikipedia, using a combination of curated examples and automatically generated closed-book question-answer pairs. The benchmark covers multiple aspects of animal knowledge, including taxonomy, morphology, habitat, behavior, vocalization, geographic distribution, and species interactions. By focusing on closed-book evaluation, BAGEL measures animal-related knowledge of models without external retrieval at inference time. BAGEL further supports fine-grained analysis across source domains, taxonomic groups, and knowledge categories, enabling a more precise characterization of model strengths and systematic failure modes. Our benchmark provides a new testbed for studying domain-specific knowledge generalization in language models and for improving their reliability in biodiversity-related applications.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!