2605.04505v1 May 06, 2026 eess.AS

JASTIN: 자연어 지침을 활용한 음성 및 음성 평가를 위한 LLM 정렬

JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions

Leying Zhang
Leying Zhang
Citations: 149
h-index: 8
Yanmin Qian
Yanmin Qian
Citations: 15
h-index: 2
Bowen Shi
Bowen Shi
Citations: 1,336
h-index: 12
Haibin Wu
Haibin Wu
Citations: 578
h-index: 6
B. Do
B. Do
Citations: 2
h-index: 1

생성형 오디오 모델의 빠른 발전은 견고한 평가 방법론 개발을 앞지르고 있습니다. 기존의 객관적 지표와 일반적인 멀티모달 대규모 언어 모델(MLLM)은 종종 도메인 일반화, 제로샷 능력 및 지침의 유연성 측면에서 어려움을 겪습니다. 이러한 문제점을 해결하기 위해, 우리는 JASTIN을 제안합니다. JASTIN은 일반화 가능하고 지침 기반의 오디오 평가 프레임워크로, 오디오 평가를 자체 지침 기반 추론 작업으로 정의합니다. JASTIN은 학습 가능한 오디오 어댑터를 통해 고성능의 오디오 인코더와 미세 조정된 LLM 백본을 연결합니다. 견고한 제로샷 일반화를 보장하기 위해, 우리는 멀티소스, 멀티태스크, 멀티캘리브레이션 및 멀티디스크립션 데이터를 포함하는 포괄적인 지침 준수 데이터 준비 파이프라인을 도입했습니다. 실험 결과는 JASTIN이 인간의 주관적인 평가와 높은 Pearson 및 Spearman 상관관계를 달성함을 보여줍니다. JASTIN은 음성, 소리, 음악 및 도메인 외부 평가 작업에서 일반적인 MLLM보다 일관되게 우수한 성능을 보이며, 작업별 재학습이 필요하지 않습니다.

Original Abstract

The rapid advancement of generative audio models has outpaced the development of robust evaluation methodologies. Existing objective metrics and general multimodal large language models (MLLMs) often struggle with domain generalization, zero-shot capabilities, and instructional flexibility. To address these bottlenecks, we propose JASTIN, a generalizable, instruction-driven audio evaluation framework that formulates audio assessment as a self-instructed reasoning task. JASTIN bridges a frozen high-performance audio encoder with a fine-tuned LLM backbone via a trainable audio adapter. To ensure robust zero-shot generalization, we introduce a comprehensive instruction following data preparation pipeline, incorporating Multi-Source, Multi-Task, Multi-Calibration, and Multi-Description data. Experimental results demonstrate that JASTIN achieves state-of-the-art Pearson and Spearman correlations with human subjective ratings. It consistently outperforms general MLLMs across speech, sound, music, and out-of-domain evaluation tasks without the need for task-specific retraining.

0 Citations
0 Influential
6 Altmetric
30.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!