2603.00610v1 Feb 28, 2026 cs.SD

CMI-RewardBench: 작곡 기반의 다중 모드 지시를 활용한 음악 보상 모델 평가

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Yi Ma
Yi Ma
Citations: 853
h-index: 12
Haiwen Xia
Haiwen Xia
Citations: 19
h-index: 1
Hewei Gao
Hewei Gao
Citations: 110
h-index: 6
Weixiong Chen
Weixiong Chen
Citations: 56
h-index: 4
Yuxin Ye
Yuxin Ye
Citations: 12
h-index: 1
Yuchen Yang
Yuchen Yang
Citations: 0
h-index: 0
Sungkyun Chang
Sungkyun Chang
Citations: 124
h-index: 7
Ming Ding
Ming Ding
Citations: 15
h-index: 2
Ruibin Yuan
Ruibin Yuan
Citations: 552
h-index: 11
Simon Dixon
Simon Dixon
Citations: 186
h-index: 7
Emmanouil Benetos
Emmanouil Benetos
School of Electronic Engineering and Computer Science, Queen Mary University of London, UK
Citations: 7,277
h-index: 42
Yizhi Li
Yizhi Li
Citations: 76
h-index: 2

음악 생성 모델은 텍스트, 가사, 참조 오디오를 혼합한 복잡한 다중 모드 입력을 처리하는 방식으로 발전해 왔지만, 평가 메커니즘은 이러한 발전에 미치지 못했습니다. 본 논문에서는 작곡 기반의 다중 모드 지시(CMI) 환경에서 음악 보상 모델링을 위한 포괄적인 시스템을 구축하여 이 중요한 격차를 해소하고자 합니다. CMI 환경에서 생성된 음악은 텍스트 설명, 가사 및 오디오 프롬프트에 의해 조건부로 결정될 수 있습니다. 먼저, 11만 개의 의사 레이블이 지정된 대규모 데이터셋인 CMI-Pref-Pseudo와 정밀한 정렬 작업을 위해 설계된 고품질의 인간 주석 데이터셋인 CMI-Pref를 소개합니다. 평가 환경을 통일하기 위해, 우리는 음악성, 텍스트-음악 정렬 및 작곡 지시 정렬에 대한 다양한 샘플을 사용하여 음악 보상 모델을 평가하는 통합 벤치마크인 CMI-RewardBench를 제안합니다. 이러한 리소스를 활용하여, 우리는 다양한 입력을 처리할 수 있는 효율적인 파라미터 기반의 보상 모델 패밀리인 CMI 보상 모델(CMI-RMs)을 개발했습니다. CMI-RMs는 CMI-Pref 및 기존 데이터셋에서 얻은 인간 평가 점수와의 상관 관계를 평가했습니다. 추가 실험 결과, CMI-RM은 인간의 판단과 높은 상관 관계를 보일 뿐만 아니라, top-k 필터링을 통한 효과적인 추론 시간 스케일링을 가능하게 합니다. 필요한 훈련 데이터, 벤치마크 및 보상 모델은 공개적으로 제공됩니다.

Original Abstract

While music generation models have evolved to handle complex multimodal inputs mixing text, lyrics, and reference audio, evaluation mechanisms have lagged behind. In this paper, we bridge this critical gap by establishing a comprehensive ecosystem for music reward modeling under Compositional Multimodal Instruction (CMI), where the generated music may be conditioned on text descriptions, lyrics, and audio prompts. We first introduce CMI-Pref-Pseudo, a large-scale preference dataset comprising 110k pseudo-labeled samples, and CMI-Pref, a high-quality, human-annotated corpus tailored for fine-grained alignment tasks. To unify the evaluation landscape, we propose CMI-RewardBench, a unified benchmark that evaluates music reward models on heterogeneous samples across musicality, text-music alignment, and compositional instruction alignment. Leveraging these resources, we develop CMI reward models (CMI-RMs), a parameter-efficient reward model family capable of processing heterogeneous inputs. We evaluate their correlation with human judgments scores on musicality and alignment on CMI-Pref along with previous datasets. Further experiments demonstrate that CMI-RM not only correlates strongly with human judgments, but also enables effective inference-time scaling via top-k filtering. The necessary training data, benchmarks, and reward models are publicly available.

0 Citations
0 Influential
21 Altmetric
105.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!