2605.05573v1 May 07, 2026 astro-ph.IM

AstroAlertBench: 다중 모드 LLM의 정확성, 추론 능력 및 정직성 평가: 천문학 분류에서의 활용

AstroAlertBench: Evaluating the Accuracy, Reasoning, and Honesty of Multimodal LLMs in Astronomical Classification

Claire Chen
Claire Chen
Citations: 28
h-index: 3
Shuze Liu
Shuze Liu
Citations: 11
h-index: 2
Facundo Peŕez Paolino
Facundo Peŕez Paolino
Citations: 3
h-index: 1
Luke B. Handley
Luke B. Handley
Citations: 56
h-index: 4
Theophile Jegou du Laz
Theophile Jegou du Laz
California Institute of Technology
Citations: 222
h-index: 8
R. Nilsson
R. Nilsson
Citations: 666
h-index: 15
AL Zou
AL Zou
Citations: 3
h-index: 1
Matthew J. Graham
Matthew J. Graham
Citations: 22
h-index: 3
A. Mahabal
A. Mahabal
Citations: 78
h-index: 5
Jia Xiao
Jia Xiao
Citations: 19
h-index: 2

현대 천문 관측소는 막대한 양의 다중 모드 데이터를 생성하며, 이는 전문가의 수동 검토에 심각한 병목 현상을 야기합니다. 다중 모드 대규모 언어 모델(LLM)은 복잡한 시각 및 텍스트 입력을 해석하는 데 유망한 결과를 보여주었지만, 해석 가능한 추론을 제공하면서 전문적인 과학 분류를 수행하는 능력은 아직 충분히 연구되지 않았습니다. 본 연구에서는 천문학적 이벤트 검토에서 LLM의 성능을 평가하기 위한 종합적인 다중 모드 벤치마크인 AstroAlertBench를 소개합니다. AstroAlertBench는 메타데이터 기반 분석, 과학적 추론, 그리고 다섯 가지 범주에 대한 계층적 분류라는 세 단계로 구성된 논리적 체인을 통해 LLM의 성능을 평가합니다. 실제 Zwicky Transient Facility (ZTF)에서 수집된 1,500개의 실제 알림 데이터를 사용하여, 시각 입력을 지원하는 13개의 최첨단 상용 및 오픈소스 LLM을 벤치마킹했습니다. 결과는 높은 정확도가 항상 모델의 ``정직성''과 일치하지 않으며, 정직성은 모델이 자신의 추론을 자체 평가하는 능력과 관련되어 있으며, 이는 실제 환경에서의 활용 가능성에 영향을 미친다는 것을 보여줍니다. 또한, 향후 커뮤니티 규모의 참여를 위한 전 단계로 인간-루프 평가 프로토콜을 초기화했습니다. AstroAlertBench는 교정되고 해석 가능한 천문학 지원 시스템 개발을 위한 프레임워크를 제공합니다.

Original Abstract

Modern astronomical observatories generate a massive volume of multimodal data, creating a critical bottleneck for expert human review. While multimodal large language models (LLMs) have shown promise in interpreting complex visual and textual inputs, their ability to perform specialized scientific classification while providing interpretable reasoning remains understudied. We introduce AstroAlertBench, a comprehensive multimodal benchmark designed to evaluate LLM performance in astronomical event review along a three-stage logical chain: metadata grounding, scientific reasoning, and hierarchical classification over five categories. We use a pilot sample of 1,500 real-world alerts from the Zwicky Transient Facility (ZTF), a wide-field survey that scans the northern sky to detect transient astronomical events. On this dataset, we benchmark 13 frontier closed-source and open-weight LLMs that support visual input. Our results reveal that high accuracy does not always align with model ``honesty,'' defined as the ability to self-evaluate its reasoning, which affects its reliability as a real-world assistant. We further initialize a human-in-the-loop evaluation protocol as a precursor to future community-scale participation. Together, AstroAlertBench provides a framework for developing calibrated and interpretable astronomical assistants.

1 Citations
0 Influential
7.5 Altmetric
38.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!