2601.15596v1 Jan 22, 2026 cs.SD

DeepASMR: LLM 기반의 제로샷 ASMR 음성 생성 기술 - 모든 사람, 모든 음색에 적용 가능

DeepASMR: LLM-Based Zero-Shot ASMR Speech Generation for Anyone of Any Voice

Leying Zhang
Leying Zhang
Citations: 149
h-index: 8
Tingxiao Zhou
Tingxiao Zhou
Citations: 2
h-index: 1
Haiyang Sun
Haiyang Sun
Citations: 19
h-index: 2
Mengxiao Bi
Mengxiao Bi
Citations: 118
h-index: 3
Yanmin Qian
Yanmin Qian
Citations: 15
h-index: 2

최신 텍스트 음성 변환(TTS) 시스템은 읽어주는 방식의 음성에 대해 높은 품질을 제공하지만, 이완에 필수적인 특수한 저강도 음성 스타일인 자율 감각 쾌락 반응(ASMR)을 생성하는 데 어려움을 겪습니다. ASMR은 미묘하고 종종 명시되지 않은 특징을 가지고 있으며, 제로샷 스피커 적응이 요구됩니다. 본 논문에서는 제로샷 ASMR 생성을 위해 설계된 첫 번째 프레임워크인 DeepASMR을 소개합니다. 우리는 화자의 일반적인 읽어주는 방식의 짧은 음성 샘플만으로도 해당 화자의 목소리로 고품질의 ASMR을 합성할 수 있으며, 타겟 화자의 속삭이는 데이터가 필요하지 않음을 보여줍니다. 방법론적으로, 우리는 이산적인 음성 토큰이 화자의 음색으로부터 ASMR 스타일을 부드럽게 분리한다고 밝혔습니다. 이러한 통찰력을 활용하여, 콘텐츠-스타일 인코딩을 위한 대규모 언어 모델(LLM)과 음색 재구성을 위한 플로우 매칭 음향 디코더를 통합한 2단계 파이프라인을 제안합니다. 또한, 670시간 분량의 영어-중국어 다중 화자 ASMR 음성 데이터셋인 DeepASMR-DB를 제공하고, 객관적 지표, 인간 청취 테스트, LLM 기반 점수 및 음성 없는 음성 분석을 통합한 새로운 평가 프로토콜을 소개합니다. 광범위한 실험 결과, DeepASMR은 모든 사람, 모든 음색에 대해 ASMR 생성에서 최첨단 수준의 자연스러움과 스타일 충실도를 달성하며, 일반 음성 합성에서도 경쟁력 있는 성능을 유지함을 확인했습니다.

Original Abstract

While modern Text-to-Speech (TTS) systems achieve high fidelity for read-style speech, they struggle to generate Autonomous Sensory Meridian Response (ASMR), a specialized, low-intensity speech style essential for relaxation. The inherent challenges include ASMR's subtle, often unvoiced characteristics and the demand for zero-shot speaker adaptation. In this paper, we introduce DeepASMR, the first framework designed for zero-shot ASMR generation. We demonstrate that a single short snippet of a speaker's ordinary, read-style speech is sufficient to synthesize high-fidelity ASMR in their voice, eliminating the need for whispered training data from the target speaker. Methodologically, we first identify that discrete speech tokens provide a soft factorization of ASMR style from speaker timbre. Leveraging this insight, we propose a two-stage pipeline incorporating a Large Language Model (LLM) for content-style encoding and a flow-matching acoustic decoder for timbre reconstruction. Furthermore, we contribute DeepASMR-DB, a comprehensive 670-hour English-Chinese multi-speaker ASMR speech corpus, and introduce a novel evaluation protocol integrating objective metrics, human listening tests, LLM-based scoring and unvoiced speech analysis. Extensive experiments confirm that DeepASMR achieves state-of-the-art naturalness and style fidelity in ASMR generation for anyone of any voice, while maintaining competitive performance on normal speech synthesis.

1 Citations
0 Influential
4 Altmetric
21.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!