UniSRCodec: 서브밴드 재구성을 갖춘 통합 및 저비트율 단일 코드북 코덱
UniSRCodec: Unified and Low-Bitrate Single Codebook Codec with Sub-Band Reconstruction
신경 오디오 코덱(NAC)은 압축 및 재구성을 통해 전송 오버헤드를 줄이고, 연속 신호와 이산 신호 간의 격차를 해소하는 것을 목표로 합니다. 기존 NAC는 멀티 코드북 코덱과 단일 코드북 코덱의 두 가지 범주로 나눌 수 있습니다. 멀티 코드북 코덱은 구조적 복잡성과 다운스트림 작업에 대한 적응의 어려움이라는 과제를 안고 있는 반면, 구조적으로는 더 간단하지만, 단일 코드북 코덱은 낮은 음질, 통합 오디오 모델링의 비효율성, 그리고 고주파 오디오 모델링 지원 불가 등의 단점을 가지고 있습니다. 본 논문에서는 고 샘플링 레이트, 저 대역폭, 고 음질, 그리고 통합적인 특성을 지원하는 단일 코드북 코덱인 UniSRCodec을 제안합니다. 우리는 파형 기반 압축의 비효율성을 분석하고, 멜-스펙트로그램을 이용한 시간 및 주파수 압축 방법을 도입하고, 보코더와 협력하여 원본 오디오의 위상 정보를 복원합니다. 또한, 저주파 및 고주파 대역 모두에서 고품질 압축을 달성하기 위해 서브밴드 재구성 기술을 제안합니다. 주관적 및 객관적 실험 결과는 UniSRCodec이 40의 토큰 비율만으로 다양한 분야의 단일 코드북 코덱 중에서 최고 성능(SOTA)을 달성하며, 그 재구성 품질이 특정 멀티 코드북 방법과 비교할 만하다는 것을 보여줍니다. 데모 페이지는 https://wxzyd123.github.io/unisrcodec 에서 확인할 수 있습니다.
Neural Audio Codecs (NACs) can reduce transmission overhead by performing compact compression and reconstruction, which also aim to bridge the gap between continuous and discrete signals. Existing NACs can be divided into two categories: multi-codebook and single-codebook codecs. Multi-codebook codecs face challenges such as structural complexity and difficulty in adapting to downstream tasks, while single-codebook codecs, though structurally simpler, suffer from low-fidelity, ineffective modeling of unified audio, and an inability to support modeling of high-frequency audio. We propose the UniSRCodec, a single-codebook codec capable of supporting high sampling rate, low-bandwidth, high fidelity, and unified. We analyze the inefficiency of waveform-based compression and introduce the time and frequency compression method using the Mel-spectrogram, and cooperate with a Vocoder to recover the phase information of the original audio. Moreover, we propose a sub-band reconstruction technique to achieve high-quality compression across both low and high frequency bands. Subjective and objective experimental results demonstrate that UniSRCodec achieves state-of-the-art (SOTA) performance among cross-domain single-codebook codecs with only a token rate of 40, and its reconstruction quality is comparable to that of certain multi-codebook methods. Our demo page is available at https://wxzyd123.github.io/unisrcodec.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.