ONOTE: 전문가 수준의 음악 지능을 위한 다중 모드 악보 처리 벤치마킹
ONOTE: Benchmarking Omnimodal Notation Processing for Expert-level Music Intelligence
다중 모드 악보 처리(ONP)는 청각, 시각 및 기호 영역 간의 엄격하고 다차원적인 정렬이 요구되기 때문에 다중 모드 AI 분야에서 독특한 영역을 차지합니다. 현재 연구는 단편적인 경향을 보이며, 표면적인 패턴 인식에만 초점을 맞추어 음악적 논리와의 간극을 해소하지 못합니다. 더욱이, 서양 악보에 대한 심각한 편향과 "LLM을 평가자로 활용하는" 방식의 신뢰성 부족으로 인해 구조적 추론 실패가 체계적인 환각으로 가려지는 문제가 있습니다. 보다 엄격한 기준을 확립하기 위해, 우리는 다양한 악보 시스템에 걸쳐 주관적인 평가 편향을 제거하기 위해 표준 음정 투영을 기반으로 하는 결정론적 파이프라인을 활용하는 다중 형식 벤치마크인 ONOTE를 소개합니다. 선도적인 다중 모드 모델에 대한 평가 결과는 지각 정확성과 음악 이론적 이해 간의 근본적인 불일치를 보여주며, 복잡하고 규칙에 제약된 영역에서 추론 취약점을 진단하는 데 필요한 프레임워크를 제공합니다.
Omnimodal Notation Processing (ONP) represents a unique frontier for omnimodal AI due to the rigorous, multi-dimensional alignment required across auditory, visual, and symbolic domains. Current research remains fragmented, focusing on isolated transcription tasks that fail to bridge the gap between superficial pattern recognition and the underlying musical logic. This landscape is further complicated by severe notation biases toward Western staff and the inherent unreliability of "LLM-as-a-judge" metrics, which often mask structural reasoning failures with systemic hallucinations. To establish a more rigorous standard, we introduce ONOTE, a multi-format benchmark that utilizes a deterministic pipeline--grounded in canonical pitch projection--to eliminate subjective scoring biases across diverse notation systems. Our evaluation of leading omnimodal models exposes a fundamental disconnect between perceptual accuracy and music-theoretic comprehension, providing a necessary framework for diagnosing reasoning vulnerabilities in complex, rule-constrained domains.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.