2604.15383v1 Apr 16, 2026 cs.SD

시간 대비 디코딩: 대규모 오디오-언어 모델을 위한 학습 불필요한 방법

Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models

S. Lahlou
S. Lahlou
Citations: 1,605
h-index: 9
Yuhan Liu
Yuhan Liu
Citations: 14
h-index: 2
Yanda Li
Yanda Li
Citations: 547
h-index: 7
Zirui Song
Zirui Song
Mohamed bin Zayed University of Artificial Intelligence;University of Technology Sydney,
Citations: 359
h-index: 13
Yunchao Wei
Yunchao Wei
Citations: 44
h-index: 2
Martin Tak'avc
Martin Tak'avc
Citations: 302
h-index: 11

대규모 오디오-언어 모델(LALM)은 음성, 소리, 음악 등 다양한 영역에서 활용되지만, 통합된 디코더는 '시간적 평활 편향'을 나타낼 수 있습니다. 즉, 일시적인 음향 정보가 언어적 선호도에 의해 더 부드러운 시간적 맥락을 선호하는 경향이 있어, 특정 오디오 정보를 기반으로 한 결과물의 정확도가 떨어질 수 있습니다. 본 연구에서는 이러한 문제를 해결하기 위해 학습이 필요 없는 디코딩 방법인 '시간 대비 디코딩(TCD)'을 제안합니다. TCD는 입력 파형을 평활화하고 재인코딩하여 시간적으로 흐릿한 '느린 경로' 뷰를 구성한 다음, 원래 뷰와 느린 경로 뷰에서 얻은 다음 토큰의 logits을 비교합니다. 이러한 대비 신호는 토큰 수준에서 logits을 업데이트하는 데 사용되며, 업데이트는 작은 후보 집합으로 제한됩니다. 자체 정규화된 안정성 점수가 블러 윈도우와 업데이트 크기를 결정하며, 불확실성과 오디오 의존성을 기반으로 하는 단계별 게이트를 통해 필요한 경우에만 업데이트가 활성화됩니다. MMAU 및 AIR-Bench 데이터셋에 대한 실험 결과, TCD는 강력한 통합 LALM에서 일관된 성능 향상을 보여줍니다. 또한, 주요 구성 요소의 기여도와 TCD가 다양한 대규모 오디오-언어 모델 구조에서 어떻게 작동하는지 분석하기 위해 추가적인 실험을 진행했습니다.

Original Abstract

Large audio-language models (LALMs) generalize across speech, sound, and music, but unified decoders can exhibit a \emph{temporal smoothing bias}: transient acoustic cues may be underutilized in favor of temporally smooth context that is better supported by language priors, leading to less specific audio-grounded outputs. We propose \emph{Temporal Contrastive Decoding} (TCD), a training-free decoding method for unified LALMs that mitigates this effect at inference time. TCD constructs a temporally blurred slow-path view by smoothing the input waveform and re-encoding it, then contrasts next-token logits from the original and slow-path views. The contrastive signal is applied as a token-level logit update restricted to a small candidate set. A self-normalized stability score sets the blur window and update scale, and a step-wise gate based on uncertainty and audio reliance activates the update only when needed. Experiments on MMAU and AIR-Bench show consistent improvements on strong unified LALMs. We further conduct ablations and an architectural applicability study to analyze the contributions of key components and how TCD behaves across large audio-language model designs.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!