RAICL: 시각-언어 모델 기반 뇌파 간질 감지 시스템을 위한 검색 증강 인컨텍스트 학습
RAICL: Retrieval-Augmented In-Context Learning for Vision-Language-Model Based EEG Seizure Detection
뇌파(EEG) 해독은 의료 진단, 재활 공학 및 뇌-컴퓨터 인터페이스의 중요한 구성 요소입니다. 그러나 현재의 해독 방법론은 여전히 특정 작업에 맞는 데이터 세트에 크게 의존하며, 이를 통해 특수화된 신경망 아키텍처를 훈련합니다. 결과적으로, 제한된 데이터 가용성은 일반화 가능한 대규모 뇌 해독 모델 개발을 방해합니다. 본 연구에서는 시계열 기반 해독 방식에서 벗어나, 대규모 시각-언어 모델(VLM)을 활용하여 뇌파 파형 이미지를 분석하는 새로운 패러다임을 제안합니다. 다변량 뇌파 신호를 쌓인 파형 이미지로 변환하고, 신경과학 분야의 전문 지식을 텍스트 프롬프트에 통합함으로써, 기본 VLM이 인간 뇌의 다양한 패턴을 효과적으로 구별할 수 있음을 입증합니다. 뇌파 신호의 고유한 비정상성을 해결하기 위해, 우리는 검색 증강 인컨텍스트 학습(RAICL) 접근 방식을 도입합니다. RAICL은 VLM의 자기 회귀 출력을 조건화하기 위해 가장 대표적이고 관련성이 높은 소수의 예제를 동적으로 선택합니다. 뇌파 기반 간질 감지 실험 결과, RAICL을 적용한 최첨단 VLM이 기존의 시계열 기반 접근 방식과 비교하여 더 나은 또는 유사한 성능을 달성했습니다. 이러한 결과는 시각, 언어 및 신경 활동의 모달리티를 효과적으로 연결하는 생리학 신호 처리의 새로운 방향을 제시합니다. 또한, 재훈련이나 하위 아키텍처 구축 없이 상용 VLM을 활용함으로써, 임상 응용 분야에 즉시 적용할 수 있는 솔루션을 제공합니다.
Electroencephalogram (EEG) decoding is a critical component of medical diagnostics, rehabilitation engineering, and brain-computer interfaces. However, contemporary decoding methodologies remain heavily dependent on task-specific datasets to train specialized neural network architectures. Consequently, limited data availability impedes the development of generalizable large brain decoding models. In this work, we propose a paradigm shift from conventional signal-based decoding by leveraging large-scale vision-language models (VLMs) to analyze EEG waveform plots. By converting multivariate EEG signals into stacked waveform images and integrating neuroscience domain expertise into textual prompts, we demonstrate that foundational VLMs can effectively differentiate between different patterns in the human brain. To address the inherent non-stationarity of EEG signals, we introduce a Retrieval-Augmented In-Context Learning (RAICL) approach, which dynamically selects the most representative and relevant few-shot examples to condition the autoregressive outputs of the VLM. Experiments on EEG-based seizure detection indicate that state-of-the-art VLMs under RAICL achieved better or comparable performance with traditional time series based approaches. These findings suggest a new direction in physiological signal processing that effectively bridges the modalities of vision, language, and neural activities. Furthermore, the utilization of off-the-shelf VLMs, without the need for retraining or downstream architecture construction, offers a readily deployable solution for clinical applications.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.