이퀄라이저: 신경망 기반 오디오 코덱에 대한 셰이프-게인 분해 방식 소개
The Equalizer: Introducing Shape-Gain Decomposition in Neural Audio Codecs
신경망 기반 오디오 코덱(NAC)은 일반적으로 음성/오디오 신호의 단기 에너지(게인)와 정규화된 구조(셰이프)를 동일한 잠재 공간 내에서 함께 인코딩합니다. 그 결과, NAC는 입력 신호 레벨의 전역적인 변화에 취약한 경향이 있는데, 이러한 변화는 인코더 출력의 임베딩 벡터와 양자화에 큰 영향을 미칩니다. 이러한 방식은 본질적으로 비효율적이며, 코드북 중복과 최적 이하의 비트율-왜곡 성능을 초래합니다. 이러한 한계를 해결하기 위해, 우리는 고전적인 음성/오디오 코딩에서 널리 사용되는 셰이프-게인 분해 방식을 NAC 프레임워크에 도입하고자 합니다. 제안하는 이퀄라이저 방법의 기본 원리는 NAC 인코더 이전에 입력 신호를 단기 기준으로 게인과 정규화된 셰이프 벡터로 분리하는 것입니다. 셰이프 벡터는 NAC에 의해 처리되고, 게인은 스칼라 양자화를 통해 양자화되어 별도로 전송됩니다. 출력(디코딩된) 신호는 NAC의 정규화된 출력과 양자화된 게인을 결합하여 재구성됩니다. 음성 신호에 대한 실험 결과, 제안하는 이 일반적인 방법론은 모든 NAC에 쉽게 적용될 수 있으며, 비트율-왜곡 성능을 크게 향상시키고 복잡성을 크게 줄일 수 있습니다.
Neural audio codecs (NACs) typically encode the short-term energy (gain) and normalized structure (shape) of speech/audio signals jointly within the same latent space. As a result, they are poorly robust to a global variation of the input signal level in the sense that such variation has strong influence on the embedding vectors at the output of the encoder and their quantization. This methodology is inherently inefficient, leading to codebook redundancy and suboptimal bitrate-distortion performance. To address these limitations, we propose to introduce shape-gain decomposition, widely used in classical speech/audio coding, into the NAC framework. The principle of the proposed Equalizer methodology is to decompose the input signal -- before the NAC encoder -- into gain and normalized shape vector on a short-term basis. The shape vector is processed by the NAC, while the gain is quantized with scalar quantization and transmitted separately. The output (decoded) signal is reconstructed from the normalized output of the NAC and the quantized gain. Our experiments conducted on speech signals show that this general methodology, easily applicable to any NAC, enables a substantial gain in bitrate-distortion performance, as well as a massive reduction in complexity.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.