EPRBench: 이벤트 스트림 기반 시각적 장소 인식 연구를 위한 고품질 벤치마크 데이터셋
EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition
이벤트 스트림 기반 시각적 장소 인식(VPR)은 조명 부족, 과다 노출, 고속 운동과 같은 어려운 환경에서 기존 가시광 카메라의 불안정성을 해결할 수 있는 유망한 연구 분야입니다. 이 분야에 특화된 데이터셋이 부족한 현실을 고려하여, 이벤트 스트림 기반 VPR 연구를 위해 특별히 설계된 고품질 벤치마크 데이터셋인 EPRBench를 소개합니다. EPRBench는 핸드헬드 장치와 차량 탑재 장치를 모두 사용하여 수집된 1만 개의 이벤트 시퀀스와 6만 5천 개의 이벤트 프레임을 포함하며, 다양한 시점, 날씨 조건 및 조명 환경에서 발생하는 실제적인 문제들을 포괄적으로 반영합니다. 의미론적 인식 및 언어 통합 VPR 연구를 지원하기 위해, EPRBench는 LLM(Large Language Model)이 생성한 장면 설명을 제공하며, 이후 인간의 주석을 통해 개선하여, LLM을 이벤트 기반 인지 파이프라인에 통합하기 위한 견고한 기반을 마련했습니다. 체계적인 평가를 용이하게 하기 위해, EPRBench를 사용하여 15개의 최첨단 VPR 알고리즘을 구현하고 벤치마킹했으며, 향후 알고리즘 비교를 위한 강력한 기준을 제공합니다. 또한, VPR을 위한 새로운 다중 모드 융합 패러다임을 제안합니다. 이 패러다임은 LLM을 사용하여 원시 이벤트 스트림에서 텍스트 기반 장면 설명을 생성하고, 이를 통해 공간적으로 주의를 기울인 토큰 선택, 교차 모드 특징 융합 및 다중 스케일 표현 학습을 수행합니다. 이 프레임워크는 매우 정확한 장소 인식을 달성할 뿐만 아니라, 예측과 함께 해석 가능한 추론 과정을 제공하여 모델의 투명성과 설명 가능성을 크게 향상시킵니다. 데이터셋과 소스 코드는 https://github.com/Event-AHU/Neuromorphic_ReID 에서 공개됩니다.
Event stream-based Visual Place Recognition (VPR) is an emerging research direction that offers a compelling solution to the instability of conventional visible-light cameras under challenging conditions such as low illumination, overexposure, and high-speed motion. Recognizing the current scarcity of dedicated datasets in this domain, we introduce EPRBench, a high-quality benchmark specifically designed for event stream-based VPR. EPRBench comprises 10K event sequences and 65K event frames, collected using both handheld and vehicle-mounted setups to comprehensively capture real-world challenges across diverse viewpoints, weather conditions, and lighting scenarios. To support semantic-aware and language-integrated VPR research, we provide LLM-generated scene descriptions, subsequently refined through human annotation, establishing a solid foundation for integrating LLMs into event-based perception pipelines. To facilitate systematic evaluation, we implement and benchmark 15 state-of-the-art VPR algorithms on EPRBench, offering a strong baseline for future algorithmic comparisons. Furthermore, we propose a novel multi-modal fusion paradigm for VPR: leveraging LLMs to generate textual scene descriptions from raw event streams, which then guide spatially attentive token selection, cross-modal feature fusion, and multi-scale representation learning. This framework not only achieves highly accurate place recognition but also produces interpretable reasoning processes alongside its predictions, significantly enhancing model transparency and explainability. The dataset and source code will be released on https://github.com/Event-AHU/Neuromorphic_ReID
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.