2601.18904v1 Jan 26, 2026 cs.SD

SICL-AT: 오디오 LLM을 저자원 작업에 적용하는 또 다른 방법

SICL-AT: Another way to adapt Auditory LLM to low-resource task

Zengrui Jin
Zengrui Jin
Citations: 694
h-index: 15
Siyi Wang
Siyi Wang
Citations: 36
h-index: 3
Haolong Zheng
Haolong Zheng
Citations: 10
h-index: 2
M. Hasegawa-Johnson
M. Hasegawa-Johnson
Citations: 10,993
h-index: 44

오디오 대규모 언어 모델(LLM)은 다양한 음성 및 오디오 이해 작업에서 뛰어난 성능을 보여줍니다. 그러나 이러한 모델은 종종 저자원 환경이나 익숙하지 않은 작업에 적용될 때 어려움을 겪습니다. 특히, 레이블이 지정된 도메인 데이터가 부족하거나 실제 테스트 분포와 일치하지 않을 경우, 직접적인 미세 조정은 불안정할 수 있습니다. 컨텍스트 학습(ICL)은 훈련 없이 추론 시간에 몇 가지 도메인 내 예제를 활용하여 오디오 LLM을 적응시키는 방법으로, 이러한 방식으로 학습할 수 있습니다. 본 연구에서는 먼저, extit{기본 ICL}이 선택된 모델에서 다양한 음성 및 오디오 작업에 대한 제로샷 성능을 향상시킨다는 것을 보여주었고, 이는 ICL 적응 능력이 멀티모달 환경으로 일반화될 수 있음을 시사합니다. 이러한 기반을 바탕으로, 우리는 extbf{음성 컨텍스트 학습 적응 훈련(SICL-AT)}이라는, 고자원 음성 데이터를 활용하여 모델의 컨텍스트 학습 능력을 강화하는 후처리 방식을 제안합니다. 이러한 강화는 오디오 이해/추론 작업으로 일반화될 수 있습니다. 실험 결과, 제안된 방법은 저자원 환경에서 직접 미세 조정보다 일관되게 우수한 성능을 보였습니다.

Original Abstract

Auditory Large Language Models (LLMs) have demonstrated strong performance across a wide range of speech and audio understanding tasks. Nevertheless, they often struggle when applied to low-resource or unfamiliar tasks. In case of labeled in-domain data is scarce or mismatched to the true test distribution, direct fine-tuning can be brittle. In-Context Learning (ICL) provides a training-free, inference-time solution by adapting auditory LLMs through conditioning on a few in-domain demonstrations. In this work, we first show that \emph{Vanilla ICL}, improves zero-shot performance across diverse speech and audio tasks for selected models which suggest this ICL adaptation capability can be generalized to multimodal setting. Building on this, we propose \textbf{Speech In-Context Learning Adaptation Training (SICL-AT)}, a post-training recipe utilizes only high resource speech data intending to strengthen model's in-context learning capability. The enhancement can generalize to audio understanding/reasoning task. Experiments indicate our proposed method consistently outperforms direct fine-tuning in low-resource scenario.

0 Citations
0 Influential
22 Altmetric
110.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!