2602.14655v1 Feb 16, 2026 cs.CL

데이터 효율성 문제 해결: 음성 기반 알츠하이머병 진단을 위한 연합 학습 및 데이터 증강 프레임워크

Breaking Data Efficiency Dilemma: A Federated and Augmented Learning Framework For Alzheimer's Disease Detection via Speech

Xiaobao Wang
Xiaobao Wang
Citations: 17
h-index: 3
Xiao Wei
Xiao Wei
Citations: 21
h-index: 3
Bin Wen
Bin Wen
Citations: 38
h-index: 4
Yuqin Lin
Yuqin Lin
Citations: 108
h-index: 6
Kai Li
Kai Li
Citations: 27
h-index: 3
Mingyang Gu
Mingyang Gu
Citations: 239
h-index: 9
Longbiao Wang
Longbiao Wang
Citations: 114
h-index: 5
Jianwu Dang
Jianwu Dang
Citations: 228
h-index: 8

알츠하이머병(AD)의 조기 진단은 질병의 진행을 늦추는 데 매우 중요합니다. AI 기반 음성 감지는 비침습적이고 비용 효율적이지만, 의료 데이터의 부족과 개인 정보 보호 문제로 인해 데이터 효율성이라는 심각한 어려움에 직면합니다. 따라서, 본 연구에서는 연합 학습과 데이터 증강을 융합하여 데이터 효율성을 체계적으로 최적화하는 새로운 프레임워크인 FAL-AD를 제안합니다. 본 연구는 다음 세 가지 주요 혁신을 제공합니다. 첫째, 음성 변환 기반 증강을 통해 절대적인 효율성 향상을 달성하며, 이를 통해 다양한 병리학적 음성 샘플을 생성합니다. 둘째, 개인 정보 보호 제약 조건 하에서 기관 간 협력을 극대화하는 적응형 연합 학습 패러다임을 통해 협업 효율성을 향상시킵니다. 셋째, 어텐션 기반 교차 모달 융합 모델을 사용하여 표현 효율성을 최적화하며, 이를 통해 정밀한 단어 수준의 정렬과 음향-텍스트 상호 작용을 달성합니다. ADReSSo 데이터셋에 대한 평가 결과, FAL-AD는 91.52%의 최고 수준의 다중 모달 정확도를 달성하여 기존의 중앙 집중식 방법보다 우수한 성능을 보이며, 데이터 효율성 문제에 대한 실용적인 해결책을 제시합니다. 본 연구의 소스 코드는 https://github.com/smileix/fal-ad 에서 공개적으로 이용 가능합니다.

Original Abstract

Early diagnosis of Alzheimer's Disease (AD) is crucial for delaying its progression. While AI-based speech detection is non-invasive and cost-effective, it faces a critical data efficiency dilemma due to medical data scarcity and privacy barriers. Therefore, we propose FAL-AD, a novel framework that synergistically integrates federated learning with data augmentation to systematically optimize data efficiency. Our approach delivers three key breakthroughs: First, absolute efficiency improvement through voice conversion-based augmentation, which generates diverse pathological speech samples via cross-category voice-content recombination. Second, collaborative efficiency breakthrough via an adaptive federated learning paradigm, maximizing cross-institutional benefits under privacy constraints. Finally, representational efficiency optimization by an attentive cross-modal fusion model, which achieves fine-grained word-level alignment and acoustic-textual interaction. Evaluated on ADReSSo, FAL-AD achieves a state-of-the-art multi-modal accuracy of 91.52%, outperforming all centralized baselines and demonstrating a practical solution to the data efficiency dilemma. Our source code is publicly available at https://github.com/smileix/fal-ad.

0 Citations
0 Influential
24.5 Altmetric
122.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!