2602.15082v2 Feb 16, 2026 cs.SD

S-PRESSO: 확산 오토인코더 및 오프라인 양자화를 이용한 초저비트 음향 효과 압축

S-PRESSO: Ultra Low Bitrate Sound Effect Compression With Diffusion Autoencoders And Offline Quantization

Zineb Lahrichi
Zineb Lahrichi
Citations: 3
h-index: 1
Gaëtan Hadjeres
Gaëtan Hadjeres
Citations: 1,565
h-index: 17
Geoffroy Peeters
Geoffroy Peeters
Citations: 118
h-index: 6
G. Richard
G. Richard
Citations: 144
h-index: 7

최근 딥러닝 기반 오디오 압축 모델은 극단적인 압축률을 달성하여 효율적인 잠재적 생성 모델링을 가능하게 했습니다. 반대로, 잠재적 생성 모델은 압축에 적용되어 연속 및 이산 방식의 한계를 뛰어넘고 있습니다. 그러나 기존 방법은 여전히 저해상도 오디오에 국한되며, 매우 낮은 비트 전송률에서는 눈에 띄는 음향 왜곡이 발생합니다. 본 논문에서는 48kHz 음향 효과 압축 모델인 S-PRESSO를 제시합니다. S-PRESSO는 오프라인 양자화를 통해 매우 낮은 비트 전송률(0.096 kbps까지)에서 연속 및 이산 임베딩을 모두 생성합니다. 저희 모델은 사전 학습된 잠재적 확산 모델을 사용하여 잠재적 인코더에 의해 학습된 압축된 오디오 임베딩을 디코딩합니다. 확산 디코더의 생성적 사전 지식을 활용하여 매우 낮은 프레임률(750배 압축률)을 달성하고, 완벽한 충실도는 희생하지만 설득력 있고 현실적인 결과물을 생성합니다. 높은 압축률에도 불구하고, S-PRESSO는 오디오 품질, 음향 유사성 및 재구성 지표에서 연속 및 이산 기준 모델보다 우수한 성능을 보입니다.

Original Abstract

Neural audio compression models have recently achieved extreme compression rates, enabling efficient latent generative modeling. Conversely, latent generative models have been applied to compression, pushing the limits of continuous and discrete approaches. However, existing methods remain constrained to low-resolution audio and degrade substantially at very low bitrates, where audible artifacts are prominent. In this paper, we present S-PRESSO, a 48kHz sound effect compression model that produces both continuous and discrete embeddings at ultra-low bitrates, down to 0.096 kbps, via offline quantization. Our model relies on a pretrained latent diffusion model to decode compressed audio embeddings learned by a latent encoder. Leveraging the generative priors of the diffusion decoder, we achieve extremely low frame rates, down to 1Hz (750x compression rate), producing convincing and realistic reconstructions at the cost of exact fidelity. Despite operating at high compression rates, we demonstrate that S-PRESSO outperforms both continuous and discrete baselines in audio quality, acoustic similarity and reconstruction metrics.

0 Citations
0 Influential
8.5 Altmetric
42.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!