2601.16547v1 Jan 23, 2026 cs.SD

CORD: 가중 온-정책 교차 모드 증류를 통한 오디오-텍스트 추론 격차 해소

CORD: Bridging the Audio-Text Reasoning Gap via Weighted On-policy Cross-modal Distillation

Shikun Feng
Shikun Feng
Citations: 3,586
h-index: 7
Haifeng Wang
Haifeng Wang
Citations: 129
h-index: 5
Dan Zhang
Dan Zhang
Citations: 1
h-index: 1
Yishu Lei
Yishu Lei
Citations: 1
h-index: 1
Jing Hu
Jing Hu
Citations: 2,033
h-index: 1
Shuwei He
Shuwei He
Citations: 22
h-index: 3
Xianlong Luo
Xianlong Luo
Citations: 6
h-index: 2
Danxiang Zhu
Danxiang Zhu
Citations: 1,005
h-index: 2
Jingzhou He
Jingzhou He
Citations: 1
h-index: 1
Yu Sun
Yu Sun
Citations: 0
h-index: 0
Hua Wu
Hua Wu
Citations: 18
h-index: 2
Haitao Zheng
Haitao Zheng
Citations: 1
h-index: 1

최근 대규모 오디오 언어 모델(LALM)에 대한 연구가 활발하게 진행되고 있습니다. 텍스트 기반 대규모 언어 모델(LLM)을 기반으로 구축되었음에도 불구하고, LALM은 종종 지식 및 추론 능력 저하를 보입니다. 우리는 이러한 제한이 현재의 학습 방식이 특징 표현 공간 내에서 음향-의미 격차를 효과적으로 해소하지 못하기 때문에 발생한다고 가정합니다. 이러한 문제를 해결하기 위해, 우리는 온라인 교차 모드 자기 증류를 수행하는 통합 정렬 프레임워크인 CORD를 제안합니다. 구체적으로, CORD는 단일 모델 내에서 오디오 기반 추론과 텍스트 기반 추론을 정렬합니다. 텍스트 모드를 내부 교사 모델로 활용하여, CORD는 오디오 처리 과정 전반에 걸쳐 다중 수준의 정렬을 수행합니다. 토큰 수준에서는, CORD는 중요도 기반 가중치를 사용한 온-정책 역 KL 발산을 사용하여 초기 단계의 중요한 토큰을 우선적으로 처리합니다. 시퀀스 수준에서는, CORD는 그룹 상대 정책 최적화(GRPO)를 통해 완전한 추론 경로를 최적화하기 위한 판정 기반의 전역 보상을 도입합니다. 여러 벤치마크에서 얻은 실험 결과는 CORD가 오디오 기반 추론 능력을 지속적으로 향상시키고, 단 8만 개의 합성 학습 샘플만을 사용하여 오디오-텍스트 성능 격차를 크게 줄이는 것을 보여주며, 이는 우리의 온-정책, 다층 교차 모드 정렬 방식의 효과성과 데이터 효율성을 입증합니다.

Original Abstract

Large Audio Language Models (LALMs) have garnered significant research interest. Despite being built upon text-based large language models (LLMs), LALMs frequently exhibit a degradation in knowledge and reasoning capabilities. We hypothesize that this limitation stems from the failure of current training paradigms to effectively bridge the acoustic-semantic gap within the feature representation space. To address this challenge, we propose CORD, a unified alignment framework that performs online cross-modal self-distillation. Specifically, it aligns audio-conditioned reasoning with its text-conditioned counterpart within a unified model. Leveraging the text modality as an internal teacher, CORD performs multi-granularity alignment throughout the audio rollout process. At the token level, it employs on-policy reverse KL divergence with importance-aware weighting to prioritize early and semantically critical tokens. At the sequence level, CORD introduces a judge-based global reward to optimize complete reasoning trajectories via Group Relative Policy Optimization (GRPO). Empirical results across multiple benchmarks demonstrate that CORD consistently enhances audio-conditioned reasoning and substantially bridges the audio-text performance gap with only 80k synthetic training samples, validating the efficacy and data efficiency of our on-policy, multi-level cross-modal alignment approach.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!