AST: 적응형, 매끄러운, 훈련 불필요한 정밀 음성 편집
AST: Adaptive, Seamless, and Training-Free Precise Speech Editing
텍스트 기반 음성 편집은 특정 부분을 수정하면서 화자 정보와 음향적 맥락을 유지하는 것을 목표로 합니다. 기존 방법은 특정 작업에 대한 훈련에 의존하며, 이는 높은 데이터 비용을 초래하고 편집되지 않은 영역에서의 시간적 일관성을 확보하기 어렵습니다. 반면, 텍스트 음성 변환(TTS) 모델을 조정하는 것은 편집 품질과 일관성 사이에 균형을 맞추는 어려움이 있습니다. 이러한 문제를 해결하기 위해, 우리는 적응형, 매끄러운, 훈련 불필요한 정밀 음성 편집 프레임워크인 AST를 제안합니다. AST는 사전 훈련된 자기 회귀 TTS 모델을 활용하여, Latent Recomposition을 통해 보존된 원본 음성 부분과 새로 합성된 부분들을 선택적으로 연결합니다. 또한, AST는 이러한 잠재 공간 조작을 확장하여 특정 음성 부분에 대한 정밀한 스타일 편집을 가능하게 합니다. 편집 경계에서 발생하는 왜곡을 방지하기 위해, 본 프레임워크는 Adaptive Weak Fact Guidance (AWFG)를 통합합니다. AWFG는 멜 스펙트럼 가이드 신호를 동적으로 조절하여, 필요한 곳에서만 구조적 제약을 적용하고 생성 공간을 방해하지 않습니다. 공개적으로 사용 가능한 벤치마크의 부족을 해결하기 위해, 우리는 새로운 음성 편집 데이터셋인 LibriSpeech-Edit를 소개합니다. 기존의 평가 지표가 편집되지 않은 영역의 시간적 일관성을 제대로 평가하지 못한다는 점을 고려하여, 우리는 Word-level Dynamic Time Warping (WDTW)을 제안합니다. 광범위한 실험 결과, AST는 추가적인 훈련 없이 제어 가능성과 품질 사이의 균형을 개선한다는 것을 보여줍니다. 이전의 시간적 일관성이 가장 뛰어난 모델과 비교했을 때, AST는 일관성을 향상시키면서 단어 오류율을 약 70% 감소시켰습니다. 또한, AST를 기본 TTS 모델에 적용하면 WDTW가 27% 감소하여, 최첨단 화자 보존 및 시간적 충실도를 달성합니다.
Text-based speech editing aims to modify specific segments while preserving speaker identity and acoustic context. Existing methods rely on task-specific training, which incurs high data costs and struggles with temporal fidelity in unedited regions. Meanwhile, adapting Text-to-Speech (TTS) models often faces a trade-off between editing quality and consistency. To address these issues, we propose AST, an Adaptive, Seamless, and Training-free precise speech editing framework. Leveraging a pre-trained autoregressive TTS model, AST introduces Latent Recomposition to selectively stitch preserved source segments with newly synthesized targets. Furthermore, AST extends this latent manipulation to enable precise style editing for specific speech segments. To prevent artifacts at these edit boundaries, the framework incorporates Adaptive Weak Fact Guidance (AWFG). AWFG dynamically modulates a mel-space guidance signal, enforcing structural constraints only where necessary without disrupting the generative manifold. To fill the gap of publicly accessible benchmarks, we introduce LibriSpeech-Edit, a new and larger speech editing dataset. As existing metrics poorly evaluate temporal consistency in unedited regions, we propose Word-level Dynamic Time Warping (WDTW). Extensive experiments demonstrate that AST resolves the controllability-quality trade-off without extra training. Compared to the previous most temporally consistent baseline, AST improves consistency while reducing Word Error Rate by nearly 70%. Moreover, applying AST to a foundation TTS model reduces WDTW by 27%, achieving state-of-the-art speaker preservation and temporal fidelity.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.