비트 파괴! 제어 가능한 MIDI-to-드럼 오디오 합성
Break-the-Beat! Controllable MIDI-to-Drum Audio Synthesis
디지털 음악 제작에서 드럼 루프 오디오를 생성하는 현재 방법, 예를 들어 원샷 샘플이나 리샘플링을 사용하는 방법은 종종 제작자에게 상당한 노력을 요구합니다. 최근 생성 모델은 높은 충실도를 달성하고 텍스트에 부합하지만, 이러한 작업에 필요한 특정 수준의 제어를 제공하지 못합니다. 기존의 심볼릭-to-오디오 연구는 종종 단일, 음색 악기에 초점을 맞추며, 다성, 타악기 합성에 대한 과제를 해결하지 못합니다. 우리는 이러한 격차를 'Break-the-Beat!'이라는 모델을 통해 해결하고자 합니다. 이 모델은 참조 오디오의 음색을 가진 드럼 MIDI를 렌더링할 수 있습니다. 우리는 제안하는 콘텐츠 인코더와 효과적인 하이브리드 컨디셔닝 메커니즘을 사용하여 사전 훈련된 텍스트-to-오디오 모델을 미세 조정하여 이 모델을 구축했습니다. 이를 가능하게 하기 위해, 기존 드럼 오디오 데이터 세트에서 쌍으로 연결된 타겟-참조 드럼 오디오 데이터 세트를 구축했습니다. 실험 결과, 우리 모델은 고해상도 드럼 MIDI를 따르는 고품질 드럼 오디오를 생성하며, 오디오 품질, 리듬 정렬 및 비트 연속성 측면에서 뛰어난 성능을 보입니다. 이는 프로듀서에게 창의적인 제작을 위한 새로운 제어 도구를 제공합니다. 데모 페이지: https://ik4sumii.github.io/break-the-beat/
Current methods for creating drum loop audio in digital music production, such as using one-shot samples or resampling, often demand non-trivial efforts of creators. While recent generative models achieve high fidelity and adhere to text, they lack the specific control needed for such a task. Existing symbolic-to-audio research often focuses on single, tonal instruments, leaving the challenge of polyphonic, percussive drum synthesis unaddressed. We address this gap by introducing ``Break-the-Beat!,'' a model capable of rendering a drum MIDI with the timbre of a reference audio. It is built by fine-tuning a pre-trained text-to-audio model with our proposed content encoder and a effective hybrid conditioning mechanism. To enable this, we construct a new dataset of paired target-reference drum audio from existing drum audio datasets. Experiments demonstrate that our model generates high-quality drum audio that follows high-resolution drum MIDI, achieving strong performance across metrics of audio quality, rhythmic alignment, and beat continuity. This offer producers a new, controllable tool for creative production. Demo page: https://ik4sumii.github.io/break-the-beat/
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.