2601.17086v1 Jan 23, 2026 cs.SD

SonoEdit: LLM 기반 TTS 시스템의 발음 교정 시스템을 위한 Null-Space 제약 기반 지식 편집

SonoEdit: Null-Space Constrained Knowledge Editing for Pronunciation Correction in LLM-Based TTS

Ayush Singh
Ayush Singh
Citations: 2,951
h-index: 5
Harshit Singh
Harshit Singh
Citations: 14
h-index: 1
Nityanand Mathur
Nityanand Mathur
IIIT Guwahati, Bosch Research
Citations: 15
h-index: 2
Akshat Mandloi
Akshat Mandloi
Citations: 1
h-index: 1
S. Kamath
S. Kamath
Citations: 704
h-index: 11

신경망 기반 텍스트 음성 변환(TTS) 시스템은 영어 중심의 학습 데이터에서 저자원 언어의 고유 명사, 특히 비영어 이름, 브랜드 및 지리적 위치를 체계적으로 잘못 발음하는 경향이 있습니다. 기존의 해결책은 일반적으로 비용이 많이 드는 다국어 데이터 수집, 지도 학습 미세 조정 또는 수동 음성 표기법 주석에 의존하며, 이는 언어적으로 다양한 환경에서 TTS 시스템의 배포를 제한합니다. 본 연구에서는 SonoEdit이라는 모델 편집 기법을 소개합니다. SonoEdit은 재학습 없이 사전 훈련된 TTS 모델의 발음 오류를 수정하는 기술입니다. 비용이 많이 드는 미세 조정이나 명시적인 음소 삽입 대신, 우리는 단일 단계의 파라미터 업데이트를 통해 특정 단어의 발음을 수정하면서 다른 모든 모델의 동작을 보존하는 것을 보장하는 Null-Space 발음 편집이라는 간결한 대안을 제안합니다. 먼저, Acoustic Causal Tracing을 활용하여 텍스트-발음 매핑에 책임이 있는 Transformer 레이어를 식별합니다. 그런 다음, Null-Space 제약 편집을 적용하여 대상 발음을 수정하면서 일반적인 음성 생성과 수학적으로 직교하는 하위 공간에 머물도록 하는 닫힌 형식의 가중치 업데이트를 계산합니다. 이 제약된 업데이트는 모델의 음향 출력을 원하는 발음 예시로 유도하는 동시에 보존된 음성 데이터셋에 대한 1차 변화를 0으로 보장합니다.

Original Abstract

Neural text-to-speech (TTS) systems systematically mispronounce low-resource proper nouns, particularly non-English names, brands, and geographic locations, due to their underrepresentation in predominantly English training corpora. Existing solutions typically rely on expensive multilingual data collection, supervised finetuning, or manual phonetic annotation, which limits the deployment of TTS systems in linguistically diverse settings. We introduce SonoEdit, a model editing technique that surgically corrects pronunciation errors in pre-trained TTS models without retraining. Instead of costly finetuning or explicit phoneme injection, we propose a parsimonious alternative based on Null-Space Pronunciation Editing, which performs a single-shot parameter update to modify the pronunciation of specific words while provably preserving all other model behavior. We first adapt Acoustic Causal Tracing to identify the Transformer layers responsible for text-to-pronunciation mapping. We then apply Null-Space Constrained Editing to compute a closed-form weight update that corrects the target pronunciation while remaining mathematically orthogonal to the subspace governing general speech generation. This constrained update steers the model's acoustic output toward a desired pronunciation exemplar while guaranteeing zero first-order change on a preserved speech corpus.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!