2601.00303v1 Jan 01, 2026 cs.CL

DepFlow: 의미적 편향을 완화하기 위한 분리된 음성 생성 모델, 우울증 감지 적용

DepFlow: Disentangled Speech Generation to Mitigate Semantic Bias in Depression Detection

Chng Eng Siong
Chng Eng Siong
Citations: 447
h-index: 13
Yuxin Li
Yuxin Li
Citations: 12
h-index: 1
Xiangyu Zhang
Xiangyu Zhang
Citations: 9
h-index: 2
Yifei Li
Yifei Li
Citations: 2
h-index: 1
Zhiwei Guo
Zhiwei Guo
Citations: 16
h-index: 2
Haoyang Zhang
Haoyang Zhang
Citations: 15
h-index: 3
Cuntai Guan
Cuntai Guan
Citations: 197
h-index: 7

음성은 초기 정신 건강 선별을 위한 확장 가능하고 비침습적인 바이오마커입니다. 그러나 DAIC-WOZ와 같은 널리 사용되는 우울증 데이터셋은 언어적 감성과 진단 레이블 간에 강한 상관관계를 나타내어 모델이 의미적 단축경로를 학습하도록 유도합니다. 그 결과, 모델의 견고성이 실제 시나리오, 특히 개인이 근본적인 우울증 상태에도 불구하고 사회적으로 긍정적이거나 중립적인 언어를 사용하는 '위장 우울증'과 같은 상황에서 저하될 수 있습니다. 이러한 의미적 편향을 완화하기 위해, 우리는 세 단계로 구성된 우울증 조건 텍스트-음성 변환 프레임워크인 DepFlow를 제안합니다. 첫째, Depression Acoustic Encoder는 적대적 학습을 통해 화자와 내용에 불변하는 우울증 임베딩을 학습하여 효과적인 분리를 달성하면서 우울증의 구별력을 유지합니다 (ROC-AUC: 0.693). 둘째, FiLM 변조를 사용한 Flow-Matching TTS 모델은 이러한 임베딩을 합성에 주입하여 우울증의 심각도에 대한 제어를 가능하게 하면서 내용과 화자 정보를 유지합니다. 셋째, 프로토타입 기반의 심각도 매핑 메커니즘은 우울증 스펙트럼 전체에 걸쳐 부드럽고 해석 가능한 조작을 제공합니다. DepFlow를 사용하여, 우리는 우울증 음성 패턴과 감정 계층화된 텍스트 저장소에서 가져온 긍정적/중립적인 내용을 결합하여 자연 데이터에서 부족한 음성-의미 불일치를 생성하는 Camouflage Depression-oriented Augmentation (CDoA) 데이터셋을 구축했습니다. 세 가지 우울증 감지 아키텍처에서 CDoA를 평가한 결과, 각각 9%, 12%, 5%의 macro-F1 점수 향상을 보여주었으며, 이는 우울증 감지에서 기존의 증강 전략보다 일관되게 우수한 성능을 보였습니다. DepFlow는 견고성을 향상시킬 뿐만 아니라, 실제 임상 데이터가 윤리적 및 범위 제한으로 인해 부족한 대화형 시스템 및 시뮬레이션 기반 평가를 위한 제어 가능한 합성 플랫폼을 제공합니다.

Original Abstract

Speech is a scalable and non-invasive biomarker for early mental health screening. However, widely used depression datasets like DAIC-WOZ exhibit strong coupling between linguistic sentiment and diagnostic labels, encouraging models to learn semantic shortcuts. As a result, model robustness may be compromised in real-world scenarios, such as Camouflaged Depression, where individuals maintain socially positive or neutral language despite underlying depressive states. To mitigate this semantic bias, we propose DepFlow, a three-stage depression-conditioned text-to-speech framework. First, a Depression Acoustic Encoder learns speaker- and content-invariant depression embeddings through adversarial training, achieving effective disentanglement while preserving depression discriminability (ROC-AUC: 0.693). Second, a flow-matching TTS model with FiLM modulation injects these embeddings into synthesis, enabling control over depressive severity while preserving content and speaker identity. Third, a prototype-based severity mapping mechanism provides smooth and interpretable manipulation across the depression continuum. Using DepFlow, we construct a Camouflage Depression-oriented Augmentation (CDoA) dataset that pairs depressed acoustic patterns with positive/neutral content from a sentiment-stratified text bank, creating acoustic-semantic mismatches underrepresented in natural data. Evaluated across three depression detection architectures, CDoA improves macro-F1 by 9%, 12%, and 5%, respectively, consistently outperforming conventional augmentation strategies in depression Detection. Beyond enhancing robustness, DepFlow provides a controllable synthesis platform for conversational systems and simulation-based evaluation, where real clinical data remains limited by ethical and coverage constraints.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!