2603.08759v1 Mar 08, 2026 cs.SD

EDMFormer: 음악 구조 분할을 위한 장르 특화 자기 지도 학습

EDMFormer: Genre-Specific Self-Supervised Learning for Music Structure Segmentation

Krish Patel
Krish Patel
Citations: 8
h-index: 2
S. Sajeer
S. Sajeer
Citations: 4
h-index: 1
Oscar Chung
Oscar Chung
Citations: 0
h-index: 0
Joel Song Bae
Joel Song Bae
Citations: 0
h-index: 0

음악 구조 분할은 오디오 분석의 핵심 과제이지만, 기존 모델들은 일렉트로닉 댄스 뮤직(EDM)에서 성능이 좋지 않습니다. 이는 대부분의 접근 방식이 가사 또는 화성 유사성에 의존하는데, 이는 팝 음악에서는 잘 작동하지만 EDM에서는 그렇지 않기 때문입니다. EDM의 구조는 에너지, 리듬 및 음색의 변화로 정의되며, 빌드업, 드롭, 브레이크다운과 같은 다양한 섹션으로 구성됩니다. 본 연구에서는 EDM-특화 데이터셋과 분류 체계를 활용하여 오디오 임베딩을 결합하는 트랜스포머 모델인 EDMFormer를 제안합니다. 본 연구에서 개발한 데이터셋인 EDM-98은 98개의 전문가가 주석을 단 EDM 트랙으로 구성되어 있으며, 공개될 예정입니다. EDMFormer는 기존 모델에 비해 경계 감지 및 섹션 레이블링 성능이 향상되었으며, 특히 드롭과 빌드업에서 더욱 뛰어난 성능을 보입니다. 이러한 결과는 학습된 표현과 장르별 데이터, 그리고 구조적 사전 지식을 결합하는 것이 EDM에 효과적이며, 다른 전문적인 음악 장르 또는 더 넓은 오디오 영역에도 적용될 수 있음을 시사합니다.

Original Abstract

Music structure segmentation is a key task in audio analysis, but existing models perform poorly on Electronic Dance Music (EDM). This problem exists because most approaches rely on lyrical or harmonic similarity, which works well for pop music but not for EDM. EDM structure is instead defined by changes in energy, rhythm, and timbre, with different sections such as buildup, drop, and breakdown. We introduce EDMFormer, a transformer model that combines self-supervised audio embeddings using an EDM-specific dataset and taxonomy. We release this dataset as EDM-98: a group of 98 professionally annotated EDM tracks. EDMFormer improves boundary detection and section labelling compared to existing models, particularly for drops and buildups. The results suggest that combining learned representations with genre-specific data and structural priors is effective for EDM and could be applied to other specialized music genres or broader audio domains.

0 Citations
0 Influential
1 Altmetric
5.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!