2601.18904v1 Jan 26, 2026 cs.SD

SICL-AT: 오디오 LLM을 저자원 작업에 적용하는 또 다른 방법

SICL-AT: Another way to adapt Auditory LLM to low-resource task

Zengrui Jin
Zengrui Jin
Citations: 6
h-index: 2
Siyi Wang
Siyi Wang
Citations: 28
h-index: 3
Haolong Zheng
Haolong Zheng
Citations: 6
h-index: 1
M. Hasegawa-Johnson
M. Hasegawa-Johnson
Citations: 10,750
h-index: 44

오디오 대규모 언어 모델(LLM)은 다양한 음성 및 오디오 이해 작업에서 뛰어난 성능을 보여줍니다. 그러나 이러한 모델은 종종 저자원 환경이나 익숙하지 않은 작업에 적용될 때 어려움을 겪습니다. 특히, 레이블이 지정된 도메인 데이터가 부족하거나 실제 테스트 분포와 일치하지 않을 경우, 직접적인 미세 조정은 불안정할 수 있습니다. 컨텍스트 학습(ICL)은 훈련 없이 추론 시간에 몇 가지 도메인 내 예제를 활용하여 오디오 LLM을 적응시키는 방법으로, 이러한 방식으로 학습할 수 있습니다. 본 연구에서는 먼저, extit{기본 ICL}이 선택된 모델에서 다양한 음성 및 오디오 작업에 대한 제로샷 성능을 향상시킨다는 것을 보여주었고, 이는 ICL 적응 능력이 멀티모달 환경으로 일반화될 수 있음을 시사합니다. 이러한 기반을 바탕으로, 우리는 extbf{음성 컨텍스트 학습 적응 훈련(SICL-AT)}이라는, 고자원 음성 데이터를 활용하여 모델의 컨텍스트 학습 능력을 강화하는 후처리 방식을 제안합니다. 이러한 강화는 오디오 이해/추론 작업으로 일반화될 수 있습니다. 실험 결과, 제안된 방법은 저자원 환경에서 직접 미세 조정보다 일관되게 우수한 성능을 보였습니다.

Original Abstract

Auditory Large Language Models (LLMs) have demonstrated strong performance across a wide range of speech and audio understanding tasks. Nevertheless, they often struggle when applied to low-resource or unfamiliar tasks. In case of labeled in-domain data is scarce or mismatched to the true test distribution, direct fine-tuning can be brittle. In-Context Learning (ICL) provides a training-free, inference-time solution by adapting auditory LLMs through conditioning on a few in-domain demonstrations. In this work, we first show that \emph{Vanilla ICL}, improves zero-shot performance across diverse speech and audio tasks for selected models which suggest this ICL adaptation capability can be generalized to multimodal setting. Building on this, we propose \textbf{Speech In-Context Learning Adaptation Training (SICL-AT)}, a post-training recipe utilizes only high resource speech data intending to strengthen model's in-context learning capability. The enhancement can generalize to audio understanding/reasoning task. Experiments indicate our proposed method consistently outperforms direct fine-tuning in low-resource scenario.

0 Citations
0 Influential
22 Altmetric
110.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!