HomeSafe-Bench: 가상 에이전트의 가정 환경 내 위험 행동 감지 평가를 위한 비전-언어 모델 벤치마크
HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios
가상 에이전트 기술의 빠른 발전으로 인해 가정용 로봇이 실제 환경에 배치되는 것이 가속화되고 있습니다. 그러나 정형화된 산업 환경과는 달리, 가정 공간은 예측 불가능한 안전 위험을 내포하고 있으며, 시스템의 한계, 예를 들어 인식 지연 및 상식 지식 부족은 위험한 오류로 이어질 수 있습니다. 현재의 안전 평가 방법은 주로 정적인 이미지, 텍스트 또는 일반적인 위험에 국한되어 있으며, 이러한 특정 상황에서의 동적인 위험 행동 감지를 적절하게 평가하지 못합니다. 이러한 격차를 해소하기 위해, 가정 환경 내 위험 행동 감지를 평가하기 위한 도전적인 벤치마크인 extbf{HomeSafe-Bench}를 소개합니다. HomeSafe-Bench는 물리적 시뮬레이션과 고급 비디오 생성 기술을 결합한 하이브리드 파이프라인으로 구성되어 있으며, 6개의 기능 영역에 걸쳐 438개의 다양한 사례를 포함하고 있으며, 세분화된 다차원 어노테이션을 제공합니다. 벤치마킹 외에도, 실시간 안전 모니터링을 위한 계층적 스트리밍 아키텍처인 extbf{Hierarchical Dual-Brain Guard for Household Safety (HD-Guard)}를 제안합니다. HD-Guard는 경량의 FastBrain을 사용하여 지속적인 고빈도 검사를 수행하고, 비동기적으로 작동하는 대규모 SlowBrain을 사용하여 심층적인 다중 모드 추론을 수행함으로써, 추론 효율성과 감지 정확성의 균형을 효과적으로 맞춥니다. 실험 결과는 HD-Guard가 지연 시간과 성능 간의 우수한 균형을 달성하며, 현재 VLM 기반 안전 감지에 존재하는 중요한 병목 현상을 분석합니다.
The rapid evolution of embodied agents has accelerated the deployment of household robots in real-world environments. However, unlike structured industrial settings, household spaces introduce unpredictable safety risks, where system limitations such as perception latency and lack of common sense knowledge can lead to dangerous errors. Current safety evaluations, often restricted to static images, text, or general hazards, fail to adequately benchmark dynamic unsafe action detection in these specific contexts. To bridge this gap, we introduce \textbf{HomeSafe-Bench}, a challenging benchmark designed to evaluate Vision-Language Models (VLMs) on unsafe action detection in household scenarios. HomeSafe-Bench is contrusted via a hybrid pipeline combining physical simulation with advanced video generation and features 438 diverse cases across six functional areas with fine-grained multidimensional annotations. Beyond benchmarking, we propose \textbf{Hierarchical Dual-Brain Guard for Household Safety (HD-Guard)}, a hierarchical streaming architecture for real-time safety monitoring. HD-Guard coordinates a lightweight FastBrain for continuous high-frequency screening with an asynchronous large-scale SlowBrain for deep multimodal reasoning, effectively balancing inference efficiency with detection accuracy. Evaluations demonstrate that HD-Guard achieves a superior trade-off between latency and performance, while our analysis identifies critical bottlenecks in current VLM-based safety detection.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.