2601.12494v1 Jan 18, 2026 cs.SD

데이터 스케줄링을 통한 아랍어 오디오 공간의 조화

Harmonizing the Arabic Audio Space with Data Scheduling

Hunzalah Hassan Bhatti
Hunzalah Hassan Bhatti
Citations: 6
h-index: 2
S. Chowdhury
S. Chowdhury
Citations: 20
h-index: 2
Firoj Alam
Firoj Alam
Citations: 16
h-index: 2

오디오 대규모 언어 모델(LLM)은 통합된 음성 이해 및 생성 기능을 제공하지만, 언어적으로 복잡하고 방언이 다양한 환경에 대한 적용은 아직 충분히 연구되지 않았습니다. 본 논문에서는 아랍어 중심의 오디오 LLM을 위한 다중 작업 지시 튜닝에 대한 최초의 체계적인 연구를 제시하며, 생성 작업(ASR, 음성 요약)과 판별 작업(방언 및 감정 식별)의 계층 구조를 다룹니다. 본 연구를 지원하기 위해, 아랍어 음성 요약을 위한 새로운 데이터셋인 AraMega-SSum을 소개합니다. Qwen2.5-Omni (7B) 모델을 미세 조정하고, 작업 진행형 커리큘럼(TPC)과 함께, 작업 및 레이블 균형을 고려하여 정보 밀도가 높은 배치 생성을 위한 전략인 Aligner-Based Diverse Sampling (ADS)을 제안합니다. 실험 결과는 효율성과 안정성 간의 중요한 균형을 보여줍니다. ADS는 초기 수렴 속도를 높이고 부가 언어적 F1 점수를 향상시키지만, 고유한 기울기 불안정성으로 인해 장기간 훈련 시 생성 디코딩을 불안정하게 만들 수 있습니다. 또한, TPC는 핵심 음향 매핑을 안정화하지만, 종종 후속 작업에서 부정적인 전이 현상을 유발합니다. 하이브리드 TPC+ADS 전략이 최적의 훈련 방법을 제공하며, 먼저 안정적인 기반을 구축한 다음, 다양성을 고려한 개선을 통해 미세한 뉘앙스를 포착할 수 있음을 보여줍니다. 이러한 결과는 복잡하고 자원이 부족한 멀티모달 환경에서 Omni-모델을 효율적으로 적용하기 위한 실질적인 지침을 제공합니다.

Original Abstract

Audio large language models (LLMs) enable unified speech understanding and generation, yet their adaptation to linguistically complex, dialect-rich settings remains underexplored. This paper presents the first systematic study of multi-task instruction tuning for an Arabic-centric audio LLM, covering a hierarchy of generative tasks (ASR, speech summarization) and discriminative tasks (dialect and emotion identification). To support this study, we introduce AraMega-SSum, a novel dataset for Arabic speech summarization. We fine-tune Qwen2.5-Omni (7B) and propose Task-Progressive Curriculum (TPC) along with Aligner-Based Diverse Sampling (ADS), a strategy that constructs information-dense batches by selecting task- and label-balanced examples. Our results reveal a critical efficiency, robustness trade-off: while ADS accelerates initial convergence and boosts paralinguistic F1-scores, its inherent gradient volatility can destabilize generative decoding under prolonged training. Furthermore, while the TPC stabilizes core acoustic mapping, it often induces negative transfer in downstream tasks. We demonstrate that a Hybrid TPC+ADS Strategy provides an optimal training ``recipe'', first establishing a robust representative foundation before employing diversity-aware refinement to capture fine-grained nuances. These findings offer practical guidance for the efficient adaptation of Omni-models in complex, low-resource multimodal environments.

1 Citations
0 Influential
1 Altmetric
6.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!