TSHA: 신뢰성 있는 안전 위험 평가 시나리오를 위한 시각 언어 모델 벤치마크
TSHA: A Benchmark for Visual Language Models in Trustworthy Safety Hazard Assessment Scenarios
최근 시각-언어 모델(VLM)의 발전은 실내 안전 위험 평가 분야에서의 응용을 가속화했습니다. 그러나 기존 벤치마크는 다음과 같은 세 가지 근본적인 한계를 가지고 있습니다. (1) 시뮬레이션 소프트웨어를 통해 구축된 합성 데이터셋에 대한 과도한 의존성은 실제 환경과의 상당한 격차를 야기합니다. (2) 위험 및 장면 유형에 대한 인위적인 제약 조건이 있는 단순화된 안전 작업은 모델의 일반화 능력을 제한합니다. (3) 복잡한 가정 안전 시나리오에서 모델의 기능을 철저히 평가하기 위한 엄격한 평가 프로토콜이 부족합니다. 이러한 문제점을 해결하기 위해, 우리는 81,809개의 신중하게 선별된 학습 샘플로 구성된 포괄적인 벤치마크인 TSHA( extbf{T}rustworthy extbf{S}afety extbf{H}azards extbf{A}ssessment)를 소개합니다. 이 벤치마크는 기존 실내 데이터셋, 인터넷 이미지, AIGC 이미지, 그리고 새로 촬영된 이미지 등 네 가지 상호 보완적인 소스로부터 데이터를 수집했습니다. 또한, 이 벤치마크는 여러 가지 안전 위험을 포함하는 새로운 비디오 및 파노라마 이미지가 포함된 1707개의 매우 어려운 테스트 세트를 포함하고 있으며, 이는 모델의 복잡한 안전 시나리오에서의 견고성을 평가하는 데 사용됩니다. 23개의 인기 있는 VLM에 대한 광범위한 실험 결과, 현재 VLM은 안전 위험 평가에 필요한 견고한 기능을 갖추지 못하고 있음을 보여줍니다. 더욱 중요한 것은, TSHA 학습 데이터셋으로 학습된 모델은 TSHA 테스트 세트에서 최대 +18.3점의 상당한 성능 향상을 달성할 뿐만 아니라 다른 벤치마크에서도 향상된 일반화 능력을 보여주며, 이는 TSHA 벤치마크의 상당한 기여도와 중요성을 강조합니다.
Recent advances in vision-language models (VLMs) have accelerated their application to indoor safety hazards assessment. However, existing benchmarks suffer from three fundamental limitations: (1) heavy reliance on synthetic datasets constructed via simulation software, creating a significant domain gap with real-world environments; (2) oversimplified safety tasks with artificial constraints on hazard and scene types, thereby limiting model generalization; and (3) absence of rigorous evaluation protocols to thoroughly assess model capabilities in complex home safety scenarios. To address these challenges, we introduce TSHA (\textbf{T}rustworthy \textbf{S}afety \textbf{H}azards \textbf{A}ssessment), a comprehensive benchmark comprising 81,809 carefully curated training samples drawn from four complementary sources: existing indoor datasets, internet images, AIGC images, and newly captured images. This benchmark set also includes a highly challenging test set with 1707 samples, comprising not only a carefully selected subset from the training distribution but also newly added videos and panoramic images containing multiple safety hazards, used to evaluate the model's robustness in complex safety scenarios. Extensive experiments on 23 popular VLMs demonstrate that current VLMs lack robust capabilities for safety hazard assessment. Importantly, models trained on the TSHA training set not only achieve a significant performance improvement of up to +18.3 points on the TSHA test set but also exhibit enhanced generalizability across other benchmarks, underscoring the substantial contribution and importance of the TSHA benchmark.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.