SleepLM: 인간 수면을 위한 자연어 기반 지능 모델
SleepLM: Natural-Language Intelligence for Human Sleep
본 논문에서는 인간 수면 분석, 해석 및 자연어 인터페이스를 가능하게 하는 수면-언어 기반 모델인 SleepLM을 소개합니다. 기존의 머신러닝 기반 수면 분석 시스템은 미리 정의된 단계나 이벤트와 같은 제한적인 범주 내에서 작동하며, 수면 현상에 대한 설명, 질의 응답, 그리고 새로운 현상에 대한 일반화가 어렵다는 한계가 있습니다. SleepLM은 자연어와 다중 모드 뇌파 검사 데이터를 연결하여 수면 생리학에 대한 언어 기반 표현을 가능하게 합니다. 이러한 연결을 지원하기 위해, 우리는 다단계 수면 캡션 생성 파이프라인을 도입하여 10,000명 이상의 개인으로부터 수집된 10만 시간 이상의 데이터를 포함하는 최초의 대규모 수면-텍스트 데이터셋을 구축했습니다. 또한, 우리는 대비 학습, 캡션 생성, 신호 재구성을 결합한 통합 사전 학습 목표를 제시하여 생리학적 정확성과 모달 간 상호 작용을 더욱 효과적으로 반영합니다. 실제 수면 이해 작업에 대한 광범위한 실험 결과, SleepLM은 제로샷 및 퓨샷 학습, 모달 간 검색, 그리고 수면 캡션 생성 작업에서 최첨단 기술보다 우수한 성능을 보임을 확인했습니다. 더욱 중요한 점은 SleepLM이 언어 기반 이벤트 위치 추정, 맞춤형 인사이트 생성, 그리고 이전에 보지 못한 작업에 대한 제로샷 일반화와 같은 흥미로운 기능을 보여준다는 것입니다. 모든 코드와 데이터는 공개적으로 제공될 예정입니다.
We present SleepLM, a family of sleep-language foundation models that enable human sleep alignment, interpretation, and interaction with natural language. Despite the critical role of sleep, learning-based sleep analysis systems operate in closed label spaces (e.g., predefined stages or events) and fail to describe, query, or generalize to novel sleep phenomena. SleepLM bridges natural language and multimodal polysomnography, enabling language-grounded representations of sleep physiology. To support this alignment, we introduce a multilevel sleep caption generation pipeline that enables the curation of the first large-scale sleep-text dataset, comprising over 100K hours of data from more than 10,000 individuals. Furthermore, we present a unified pretraining objective that combines contrastive alignment, caption generation, and signal reconstruction to better capture physiological fidelity and cross-modal interactions. Extensive experiments on real-world sleep understanding tasks verify that SleepLM outperforms state-of-the-art in zero-shot and few-shot learning, cross-modal retrieval, and sleep captioning. Importantly, SleepLM also exhibits intriguing capabilities including language-guided event localization, targeted insight generation, and zero-shot generalization to unseen tasks. All code and data will be open-sourced.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.