이산 확산을 이용한 제어 가능한 억양 정규화
Controllable Accent Normalization via Discrete Diffusion
기존의 억양 정규화 방법들은 일반적으로 억양의 강도를 조절하는 기능을 제공하지 않지만, 언어 학습 및 더빙과 같은 많은 응용 분야에서는 조절 가능한 억양 유지 기능이 필요합니다. 본 논문에서는 자기 지도 학습 기반 음성 토큰에 대한 마스킹된 이산 확산을 활용하여 억양의 강도를 제어할 수 있는 시스템인 DLM-AN을 제안합니다. Common Token Predictor는 원어민 발음을 포함할 가능성이 높은 소스 토큰을 식별하고, 이러한 토큰을 선택적으로 사용하여 역 확산 과정을 초기화합니다. 이 방법은 억양의 강도를 제어하는 간단하면서도 효과적인 메커니즘을 제공합니다. 더 많은 토큰을 재사용할수록 원래 억양을 더 많이 유지할 수 있습니다. 또한, DLM-AN은 flow-matching Duration Ratio Predictor를 추가하여 전체 지속 시간을 자동으로 조정하여 원어민의 리듬에 더 잘 맞도록 합니다. 다양한 억양을 가진 영어 데이터에 대한 실험 결과, DLM-AN은 비교 대상 시스템 중 가장 낮은 단어 오류율을 달성했으며, 경쟁력 있는 억양 감소 효과와 함께 부드럽고 해석 가능한 억양 강도 제어를 제공하는 것으로 나타났습니다.
Existing accent normalization methods do not typically offer control over accent strength, yet many applications-such as language learning and dubbing-require tunable accent retention. We propose DLM-AN, a controllable accent normalization system built on masked discrete diffusion over self-supervised speech tokens. A Common Token Predictor identifies source tokens that likely encode native pronunciation; these tokens are selectively reused to initialize the reverse diffusion process. This provides a simple yet effective mechanism for controlling accent strength: reusing more tokens preserves more of the original accent. DLM-AN further incorporates a flow-matching Duration Ratio Predictor that automatically adjusts the total duration to better match the native rhythm. Experiments on multi-accent English data show that DLM-AN achieves the lowest word error rate among all compared systems while delivering competitive accent reduction and smooth, interpretable accent strength control.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.