2604.20719v1 Apr 22, 2026 cs.SD

ONOTE: 전문가 수준의 음악 지능을 위한 다중 모드 악보 처리 벤치마킹

ONOTE: Benchmarking Omnimodal Notation Processing for Expert-level Music Intelligence

Anh Tuan Luu
Anh Tuan Luu
MIT
Citations: 4,009
h-index: 36
Menghe Ma
Menghe Ma
Citations: 2
h-index: 1
Siqing Wei
Siqing Wei
Citations: 22
h-index: 3
Yuecheng Xing
Yuecheng Xing
Citations: 0
h-index: 0
F. Meng
F. Meng
Citations: 19
h-index: 3
Peijun Han
Peijun Han
Citations: 0
h-index: 0
Haoran Luo
Haoran Luo
Citations: 6
h-index: 1
Yaheng Wang
Yaheng Wang
Citations: 203
h-index: 4

다중 모드 악보 처리(ONP)는 청각, 시각 및 기호 영역 간의 엄격하고 다차원적인 정렬이 요구되기 때문에 다중 모드 AI 분야에서 독특한 영역을 차지합니다. 현재 연구는 단편적인 경향을 보이며, 표면적인 패턴 인식에만 초점을 맞추어 음악적 논리와의 간극을 해소하지 못합니다. 더욱이, 서양 악보에 대한 심각한 편향과 "LLM을 평가자로 활용하는" 방식의 신뢰성 부족으로 인해 구조적 추론 실패가 체계적인 환각으로 가려지는 문제가 있습니다. 보다 엄격한 기준을 확립하기 위해, 우리는 다양한 악보 시스템에 걸쳐 주관적인 평가 편향을 제거하기 위해 표준 음정 투영을 기반으로 하는 결정론적 파이프라인을 활용하는 다중 형식 벤치마크인 ONOTE를 소개합니다. 선도적인 다중 모드 모델에 대한 평가 결과는 지각 정확성과 음악 이론적 이해 간의 근본적인 불일치를 보여주며, 복잡하고 규칙에 제약된 영역에서 추론 취약점을 진단하는 데 필요한 프레임워크를 제공합니다.

Original Abstract

Omnimodal Notation Processing (ONP) represents a unique frontier for omnimodal AI due to the rigorous, multi-dimensional alignment required across auditory, visual, and symbolic domains. Current research remains fragmented, focusing on isolated transcription tasks that fail to bridge the gap between superficial pattern recognition and the underlying musical logic. This landscape is further complicated by severe notation biases toward Western staff and the inherent unreliability of "LLM-as-a-judge" metrics, which often mask structural reasoning failures with systemic hallucinations. To establish a more rigorous standard, we introduce ONOTE, a multi-format benchmark that utilizes a deterministic pipeline--grounded in canonical pitch projection--to eliminate subjective scoring biases across diverse notation systems. Our evaluation of leading omnimodal models exposes a fundamental disconnect between perceptual accuracy and music-theoretic comprehension, providing a necessary framework for diagnosing reasoning vulnerabilities in complex, rule-constrained domains.

0 Citations
0 Influential
18 Altmetric
90.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!