2605.14555v1 May 14, 2026 cs.SD

비트 파괴! 제어 가능한 MIDI-to-드럼 오디오 합성

Break-the-Beat! Controllable MIDI-to-Drum Audio Synthesis

Christian Simon
Christian Simon
Citations: 29
h-index: 3
Shuyang Cui
Shuyang Cui
Citations: 9
h-index: 2
Shusuke Takahashi
Shusuke Takahashi
Citations: 1,010
h-index: 16
Zhi-Wei Zhong
Zhi-Wei Zhong
Citations: 127
h-index: 6
Zachary Novack
Zachary Novack
Citations: 11
h-index: 1
Junghyun Koo
Junghyun Koo
Sony AI / Sony Research
Citations: 350
h-index: 9
Qiyu Wu
Qiyu Wu
Citations: 21
h-index: 3
Woosung Choi
Woosung Choi
Citations: 130
h-index: 7
Keisuke Toyama
Keisuke Toyama
Citations: 6
h-index: 1
K. Cheuk
K. Cheuk
Citations: 522
h-index: 12
Yukara Ikemiya
Yukara Ikemiya
Citations: 337
h-index: 9
Chihiro Nagashima
Chihiro Nagashima
Citations: 64
h-index: 4

디지털 음악 제작에서 드럼 루프 오디오를 생성하는 현재 방법, 예를 들어 원샷 샘플이나 리샘플링을 사용하는 방법은 종종 제작자에게 상당한 노력을 요구합니다. 최근 생성 모델은 높은 충실도를 달성하고 텍스트에 부합하지만, 이러한 작업에 필요한 특정 수준의 제어를 제공하지 못합니다. 기존의 심볼릭-to-오디오 연구는 종종 단일, 음색 악기에 초점을 맞추며, 다성, 타악기 합성에 대한 과제를 해결하지 못합니다. 우리는 이러한 격차를 'Break-the-Beat!'이라는 모델을 통해 해결하고자 합니다. 이 모델은 참조 오디오의 음색을 가진 드럼 MIDI를 렌더링할 수 있습니다. 우리는 제안하는 콘텐츠 인코더와 효과적인 하이브리드 컨디셔닝 메커니즘을 사용하여 사전 훈련된 텍스트-to-오디오 모델을 미세 조정하여 이 모델을 구축했습니다. 이를 가능하게 하기 위해, 기존 드럼 오디오 데이터 세트에서 쌍으로 연결된 타겟-참조 드럼 오디오 데이터 세트를 구축했습니다. 실험 결과, 우리 모델은 고해상도 드럼 MIDI를 따르는 고품질 드럼 오디오를 생성하며, 오디오 품질, 리듬 정렬 및 비트 연속성 측면에서 뛰어난 성능을 보입니다. 이는 프로듀서에게 창의적인 제작을 위한 새로운 제어 도구를 제공합니다. 데모 페이지: https://ik4sumii.github.io/break-the-beat/

Original Abstract

Current methods for creating drum loop audio in digital music production, such as using one-shot samples or resampling, often demand non-trivial efforts of creators. While recent generative models achieve high fidelity and adhere to text, they lack the specific control needed for such a task. Existing symbolic-to-audio research often focuses on single, tonal instruments, leaving the challenge of polyphonic, percussive drum synthesis unaddressed. We address this gap by introducing ``Break-the-Beat!,'' a model capable of rendering a drum MIDI with the timbre of a reference audio. It is built by fine-tuning a pre-trained text-to-audio model with our proposed content encoder and a effective hybrid conditioning mechanism. To enable this, we construct a new dataset of paired target-reference drum audio from existing drum audio datasets. Experiments demonstrate that our model generates high-quality drum audio that follows high-resolution drum MIDI, achieving strong performance across metrics of audio quality, rhythmic alignment, and beat continuity. This offer producers a new, controllable tool for creative production. Demo page: https://ik4sumii.github.io/break-the-beat/

1 Citations
0 Influential
8 Altmetric
41.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!