2601.09603v1 Jan 14, 2026 cs.SD

랜덤 양자화기를 활용한 선형 복잡도 자기 지도 학습을 통한 음악 이해

Linear Complexity Self-Supervised Learning for Music Understanding with Random Quantizer

Petros Vavaroutsos
Petros Vavaroutsos
Citations: 18
h-index: 2
Theodoros Palamas
Theodoros Palamas
Citations: 0
h-index: 0
Pantelis Vikatos
Pantelis Vikatos
Citations: 1
h-index: 1

최근 몇 년 동안, 뛰어난 성능을 보이는 기반 모델이 자연어 처리(NLP) 분야를 중심으로 매우 인기를 얻고 있습니다. 이러한 모델들은 수억 개 또는 수십억 개의 파라미터를 포함하며, 훈련 및 실제 시스템 운영 시 상당한 리소스가 필요하여 비용 증가를 초래합니다. 본 논문에서는 음악 정보 검색(MIR) 작업에 기반 모델을 적용할 때 모델 크기를 줄이는 데 중점을 둡니다. 본 연구는 음성 인식에 처음 적용된 Branchformer 아키텍처와 SummaryMixing 기술을 결합하고, 랜덤 양자화 과정을 추가했습니다. 재현성을 높이기 위해, 공개적으로 사용 가능한 데이터셋을 활용하고, 문헌에 보고된 다른 비공개 데이터셋과 유사한 규모의 자체 데이터셋을 함께 사용했습니다. 다양한 하위 MIR 작업을 포함하는 프레임워크를 사용하여 견고한 평가를 수행했습니다. 실험 결과, 제안하는 아키텍처는 멀티 헤드 셀프 어텐션을 사용하는 다른 최첨단 모델과 비교하여 경쟁력 있는 성능을 달성하는 동시에 모델 크기를 8.5%에서 최대 12.3%까지 줄일 수 있음을 확인했습니다.

Original Abstract

In recent years, foundation models have become very popular due to their exceptional performance, mainly in natural language (NLP) tasks where they were first introduced. These models usually consist of hundreds of millions, or even billions, of parameters, making them resource-intensive during training and in production systems, leading to increased costs. This paper focuses on the reduction of a foundation's model size when applied to music information retrieval (MIR) tasks. Our research combines the Branchformer architecture with SummaryMixing, which were first applied in speech recognition, along with a random quantization process. To facilitate reproducibility, we conduct pre-training on publicly available datasets, complemented by a proprietary dataset comparable in scale to other private datasets reported in the literature. We ensure robust evaluation by using a framework consisting of a variety of downstream MIR tasks. Our results show that our architecture achieves competitive performance when compared with other state-of-the-art models that use multi-head self-attention, while reducing the model size from 8.5% up to 12.3%.

0 Citations
0 Influential
1 Altmetric
5.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!