2601.09613v1 Jan 14, 2026 cs.CV

CogRail: 지능형 철도 운송 시스템을 위한 인지적 침입 감지 분야에서 VLMs 벤치마킹

CogRail: Benchmarking VLMs in Cognitive Intrusion Perception for Intelligent Railway Transportation Systems

Hui Zhang
Hui Zhang
Citations: 21
h-index: 3
Yonglin Tian
Yonglin Tian
Citations: 0
h-index: 0
Qiyao Zhang
Qiyao Zhang
Citations: 71
h-index: 1
Wei Xu
Wei Xu
Citations: 123
h-index: 3
Yutong Wang
Yutong Wang
Citations: 109
h-index: 4
Yihao Wu
Yihao Wu
Citations: 46
h-index: 4
Xinyi Li
Xinyi Li
Citations: 1
h-index: 1
Xingyuan Dai
Xingyuan Dai
Citations: 202
h-index: 6
Zhiyong Cui
Zhiyong Cui
Citations: 2
h-index: 1
B. Guo
B. Guo
Citations: 144
h-index: 7
Zujun Yu
Zujun Yu
Citations: 11
h-index: 1
Yisheng Lv
Yisheng Lv
Citations: 1
h-index: 1

정확하고 조기적인 잠재적 침입 대상 감지는 철도 운송 시스템의 안전을 보장하는 데 필수적입니다. 그러나 대부분의 기존 시스템은 고정된 시각 범위 내의 객체 분류에만 집중하고, 침입 상태를 결정하기 위해 규칙 기반 휴리스틱을 적용하며, 종종 잠재적인 침입 위험을 내포하는 대상을 간과합니다. 이러한 위험을 예측하려면 관심 객체(OOI)의 공간적 맥락과 시간적 동역학에 대한 인지가 필요하며, 이는 기존의 시각 모델에 어려움을 야기합니다. 이러한 심층적인 침입 감지를 지원하기 위해, 우리는 공간-시간적 추론 및 예측을 지원하는 인지 기반 질의응답 주석을 통합한 큐레이션된 오픈 소스 데이터 세트를 결합한 새로운 벤치마크인 CogRail을 소개합니다. 이 벤치마크를 기반으로, 우리는 최첨단 시각-언어 모델(VLMs)을 다중 모드 프롬프트를 사용하여 체계적으로 평가하여 이 분야에서 그들의 강점과 한계를 파악합니다. 또한, 우리는 VLMs를 미세 조정하여 성능을 향상시키고, 위치 인식, 움직임 예측 및 위협 분석이라는 세 가지 핵심 작업을 통합하는 공동 미세 조정 프레임워크를 제안합니다. 이를 통해 범용 기초 모델을 인지적 침입 감지에 특화된 모델로 효과적으로 적응시킬 수 있습니다. 광범위한 실험 결과, 현재의 대규모 다중 모드 모델은 인지적 침입 감지 작업에 필요한 복잡한 공간-시간적 추론에 어려움을 겪으며, 이는 안전이 중요한 이 분야에서 기존 기초 모델의 한계를 강조합니다. 반대로, 제안된 공동 미세 조정 프레임워크는 도메인별 추론 요구 사항에 대한 표적 적응을 가능하게 하여 모델 성능을 크게 향상시키며, 이는 정확도와 해석 가능성을 향상시키는 데 있어 구조화된 다중 작업 학습의 장점을 강조합니다. 코드 및 관련 자료는 https://github.com/Hub-Tian/CogRail 에서 확인할 수 있습니다.

Original Abstract

Accurate and early perception of potential intrusion targets is essential for ensuring the safety of railway transportation systems. However, most existing systems focus narrowly on object classification within fixed visual scopes and apply rule-based heuristics to determine intrusion status, often overlooking targets that pose latent intrusion risks. Anticipating such risks requires the cognition of spatial context and temporal dynamics for the object of interest (OOI), which presents challenges for conventional visual models. To facilitate deep intrusion perception, we introduce a novel benchmark, CogRail, which integrates curated open-source datasets with cognitively driven question-answer annotations to support spatio-temporal reasoning and prediction. Building upon this benchmark, we conduct a systematic evaluation of state-of-the-art visual-language models (VLMs) using multimodal prompts to identify their strengths and limitations in this domain. Furthermore, we fine-tune VLMs for better performance and propose a joint fine-tuning framework that integrates three core tasks, position perception, movement prediction, and threat analysis, facilitating effective adaptation of general-purpose foundation models into specialized models tailored for cognitive intrusion perception. Extensive experiments reveal that current large-scale multimodal models struggle with the complex spatial-temporal reasoning required by the cognitive intrusion perception task, underscoring the limitations of existing foundation models in this safety-critical domain. In contrast, our proposed joint fine-tuning framework significantly enhances model performance by enabling targeted adaptation to domain-specific reasoning demands, highlighting the advantages of structured multi-task learning in improving both accuracy and interpretability. Code will be available at https://github.com/Hub-Tian/CogRail.

0 Citations
0 Influential
31.547189562171 Altmetric
157.7 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!