2603.11987v1 Mar 12, 2026 cs.AI

LABSHIELD: 과학 연구실의 안전 관련 추론 및 계획을 위한 다중 모드 벤치마크

LABSHIELD: A Multimodal Benchmark for Safety-Critical Reasoning and Planning in Scientific Laboratories

Xiaowei Chi
Xiaowei Chi
Citations: 444
h-index: 11
Kuangzhi Ge
Kuangzhi Ge
Citations: 31
h-index: 3
Ying Li
Ying Li
Citations: 64
h-index: 4
Sirui Han
Sirui Han
Citations: 20
h-index: 3
Shanghang Zhang
Shanghang Zhang
Citations: 555
h-index: 11
Qian Sun
Qian Sun
Citations: 13
h-index: 2
Yuhan Rui
Yuhan Rui
Citations: 0
h-index: 0
Jiajun Li
Jiajun Li
Citations: 0
h-index: 0

인공지능은 과학 자동화를 점점 더 가속화하고 있으며, 다중 모드 대규모 언어 모델(MLLM) 에이전트가 실험실 지원 도구에서 자율 실험실 운영자로 진화하고 있습니다. 이러한 전환은 실험실 환경에 엄격한 안전 요구 사항을 부과하는데, 왜냐하면 깨지기 쉬운 유리 제품, 위험 물질, 정밀 실험 장비는 계획 오류나 오해된 위험을 잠재적으로 되돌릴 수 없도록 만들기 때문입니다. 그러나 이러한 고위험 환경에서 로봇 에이전트의 안전 인지 능력과 의사 결정 신뢰성은 여전히 충분히 정의되고 평가되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 MLLM의 위험 식별 및 안전 관련 추론 능력을 평가하기 위한 현실적인 다중 시점 벤치마크인 LABSHIELD를 소개합니다. LABSHIELD는 미국 산업안전보건청(OSHA) 표준 및 전 세계 조화 시스템(GHS)을 기반으로 하며, 164가지의 다양한 조작 복잡성과 위험 프로파일을 가진 작업에 대한 엄격한 안전 분류 체계를 구축합니다. 우리는 이중 추적 평가 프레임워크 하에서 20개의 독점 모델, 9개의 오픈 소스 모델 및 3개의 로봇 모델을 평가했습니다. 우리의 결과는 일반 도메인 객관식 문제 해결 정확도와 반개방형 질문-응답 안전 성능 간에 체계적인 격차가 있음을 보여주며, 특히 위험 해석 및 안전 관련 계획 측면에서 전문적인 실험실 시나리오에서 모델의 성능이 평균 32.0% 감소했습니다. 이러한 결과는 로봇 실험실 환경에서 신뢰할 수 있는 자율 과학 실험을 보장하기 위해 안전 중심 추론 프레임워크의 시급한 필요성을 강조합니다. 전체 데이터 세트는 곧 공개될 예정입니다.

Original Abstract

Artificial intelligence is increasingly catalyzing scientific automation, with multimodal large language model (MLLM) agents evolving from lab assistants into self-driving lab operators. This transition imposes stringent safety requirements on laboratory environments, where fragile glassware, hazardous substances, and high-precision laboratory equipment render planning errors or misinterpreted risks potentially irreversible. However, the safety awareness and decision-making reliability of embodied agents in such high-stakes settings remain insufficiently defined and evaluated. To bridge this gap, we introduce LABSHIELD, a realistic multi-view benchmark designed to assess MLLMs in hazard identification and safety-critical reasoning. Grounded in U.S. Occupational Safety and Health Administration (OSHA) standards and the Globally Harmonized System (GHS), LABSHIELD establishes a rigorous safety taxonomy spanning 164 operational tasks with diverse manipulation complexities and risk profiles. We evaluate 20 proprietary models, 9 open-source models, and 3 embodied models under a dual-track evaluation framework. Our results reveal a systematic gap between general-domain MCQ accuracy and Semi-open QA safety performance, with models exhibiting an average drop of 32.0% in professional laboratory scenarios, particularly in hazard interpretation and safety-aware planning. These findings underscore the urgent necessity for safety-centric reasoning frameworks to ensure reliable autonomous scientific experimentation in embodied laboratory contexts. The full dataset will be released soon.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!