CogRail: 지능형 철도 운송 시스템을 위한 인지적 침입 감지 분야에서 VLMs 벤치마킹
CogRail: Benchmarking VLMs in Cognitive Intrusion Perception for Intelligent Railway Transportation Systems
정확하고 조기적인 잠재적 침입 대상 감지는 철도 운송 시스템의 안전을 보장하는 데 필수적입니다. 그러나 대부분의 기존 시스템은 고정된 시각 범위 내의 객체 분류에만 집중하고, 침입 상태를 결정하기 위해 규칙 기반 휴리스틱을 적용하며, 종종 잠재적인 침입 위험을 내포하는 대상을 간과합니다. 이러한 위험을 예측하려면 관심 객체(OOI)의 공간적 맥락과 시간적 동역학에 대한 인지가 필요하며, 이는 기존의 시각 모델에 어려움을 야기합니다. 이러한 심층적인 침입 감지를 지원하기 위해, 우리는 공간-시간적 추론 및 예측을 지원하는 인지 기반 질의응답 주석을 통합한 큐레이션된 오픈 소스 데이터 세트를 결합한 새로운 벤치마크인 CogRail을 소개합니다. 이 벤치마크를 기반으로, 우리는 최첨단 시각-언어 모델(VLMs)을 다중 모드 프롬프트를 사용하여 체계적으로 평가하여 이 분야에서 그들의 강점과 한계를 파악합니다. 또한, 우리는 VLMs를 미세 조정하여 성능을 향상시키고, 위치 인식, 움직임 예측 및 위협 분석이라는 세 가지 핵심 작업을 통합하는 공동 미세 조정 프레임워크를 제안합니다. 이를 통해 범용 기초 모델을 인지적 침입 감지에 특화된 모델로 효과적으로 적응시킬 수 있습니다. 광범위한 실험 결과, 현재의 대규모 다중 모드 모델은 인지적 침입 감지 작업에 필요한 복잡한 공간-시간적 추론에 어려움을 겪으며, 이는 안전이 중요한 이 분야에서 기존 기초 모델의 한계를 강조합니다. 반대로, 제안된 공동 미세 조정 프레임워크는 도메인별 추론 요구 사항에 대한 표적 적응을 가능하게 하여 모델 성능을 크게 향상시키며, 이는 정확도와 해석 가능성을 향상시키는 데 있어 구조화된 다중 작업 학습의 장점을 강조합니다. 코드 및 관련 자료는 https://github.com/Hub-Tian/CogRail 에서 확인할 수 있습니다.
Accurate and early perception of potential intrusion targets is essential for ensuring the safety of railway transportation systems. However, most existing systems focus narrowly on object classification within fixed visual scopes and apply rule-based heuristics to determine intrusion status, often overlooking targets that pose latent intrusion risks. Anticipating such risks requires the cognition of spatial context and temporal dynamics for the object of interest (OOI), which presents challenges for conventional visual models. To facilitate deep intrusion perception, we introduce a novel benchmark, CogRail, which integrates curated open-source datasets with cognitively driven question-answer annotations to support spatio-temporal reasoning and prediction. Building upon this benchmark, we conduct a systematic evaluation of state-of-the-art visual-language models (VLMs) using multimodal prompts to identify their strengths and limitations in this domain. Furthermore, we fine-tune VLMs for better performance and propose a joint fine-tuning framework that integrates three core tasks, position perception, movement prediction, and threat analysis, facilitating effective adaptation of general-purpose foundation models into specialized models tailored for cognitive intrusion perception. Extensive experiments reveal that current large-scale multimodal models struggle with the complex spatial-temporal reasoning required by the cognitive intrusion perception task, underscoring the limitations of existing foundation models in this safety-critical domain. In contrast, our proposed joint fine-tuning framework significantly enhances model performance by enabling targeted adaptation to domain-specific reasoning demands, highlighting the advantages of structured multi-task learning in improving both accuracy and interpretability. Code will be available at https://github.com/Hub-Tian/CogRail.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.