SAM Audio Judge: 오디오 분리 성능 평가를 위한 통합 멀티모달 프레임워크
SAM Audio Judge: A Unified Multimodal Framework for Perceptual Evaluation of Audio Separation
오디오 분리 분야에서 성능 평가는 여전히 복잡한 과제이며, 기존 평가 지표들은 종종 인간의 인지적 특성과 일치하지 않거나, 세부적인 정보를 담지 못하며, 정답 신호에 의존하는 경향이 있습니다. 반면, 주관적인 청취 테스트는 실제 환경에서의 평가에 있어 가장 권위 있는 방법이지만, 비용이 많이 들고, 시간이 오래 걸리며, 확장하기 어렵다는 단점이 있습니다. 본 논문은 인간의 개입 없이 오디오 분리 성능을 평가할 수 있는 자동화 시스템에 대한 증가하는 요구에 대응합니다. 제안하는 평가 지표인 SAM Audio Judge (SAJ)는 멀티모달 기반의 세밀하고 참조 없이 사용할 수 있는 객관적인 지표로서, 인간의 인지적 특성과 높은 일치성을 보입니다. SAJ는 음성, 음악, 일반적인 소리 이벤트의 세 가지 오디오 도메인과 텍스트, 시각 정보, 구간 정보를 입력으로 활용하여, 재현율, 정밀도, 충실도, 전반적인 품질의 네 가지 평가 차원을 다룹니다. SAM Audio Judge는 데이터 필터링, 대규모 데이터셋에 대한 유사 레이블 생성, 그리고 오디오 분리 모델의 재순위화에도 잠재적인 활용 가능성을 보여줍니다. 저희의 코드와 사전 훈련된 모델은 다음 링크에서 다운로드할 수 있습니다: https://github.com/facebookresearch/sam-audio.
The performance evaluation remains a complex challenge in audio separation, and existing evaluation metrics are often misaligned with human perception, course-grained, relying on ground truth signals. On the other hand, subjective listening tests remain the gold standard for real-world evaluation, but they are expensive, time-consuming, and difficult to scale. This paper addresses the growing need for automated systems capable of evaluating audio separation without human intervention. The proposed evaluation metric, SAM Audio Judge (SAJ), is a multimodal fine-grained reference-free objective metric, which shows highly alignment with human perceptions. SAJ supports three audio domains (speech, music and general sound events) and three prompt inputs (text, visual and span), covering four different dimensions of evaluation (recall, percision, faithfulness, and overall). SAM Audio Judge also shows potential applications in data filtering, pseudo-labeling large datasets and reranking in audio separation models. We release our code and pre-trained models at: https://github.com/facebookresearch/sam-audio.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.