데이터 스케줄링을 통한 아랍어 오디오 공간의 조화
Harmonizing the Arabic Audio Space with Data Scheduling
오디오 대규모 언어 모델(LLM)은 통합된 음성 이해 및 생성 기능을 제공하지만, 언어적으로 복잡하고 방언이 다양한 환경에 대한 적용은 아직 충분히 연구되지 않았습니다. 본 논문에서는 아랍어 중심의 오디오 LLM을 위한 다중 작업 지시 튜닝에 대한 최초의 체계적인 연구를 제시하며, 생성 작업(ASR, 음성 요약)과 판별 작업(방언 및 감정 식별)의 계층 구조를 다룹니다. 본 연구를 지원하기 위해, 아랍어 음성 요약을 위한 새로운 데이터셋인 AraMega-SSum을 소개합니다. Qwen2.5-Omni (7B) 모델을 미세 조정하고, 작업 진행형 커리큘럼(TPC)과 함께, 작업 및 레이블 균형을 고려하여 정보 밀도가 높은 배치 생성을 위한 전략인 Aligner-Based Diverse Sampling (ADS)을 제안합니다. 실험 결과는 효율성과 안정성 간의 중요한 균형을 보여줍니다. ADS는 초기 수렴 속도를 높이고 부가 언어적 F1 점수를 향상시키지만, 고유한 기울기 불안정성으로 인해 장기간 훈련 시 생성 디코딩을 불안정하게 만들 수 있습니다. 또한, TPC는 핵심 음향 매핑을 안정화하지만, 종종 후속 작업에서 부정적인 전이 현상을 유발합니다. 하이브리드 TPC+ADS 전략이 최적의 훈련 방법을 제공하며, 먼저 안정적인 기반을 구축한 다음, 다양성을 고려한 개선을 통해 미세한 뉘앙스를 포착할 수 있음을 보여줍니다. 이러한 결과는 복잡하고 자원이 부족한 멀티모달 환경에서 Omni-모델을 효율적으로 적용하기 위한 실질적인 지침을 제공합니다.
Audio large language models (LLMs) enable unified speech understanding and generation, yet their adaptation to linguistically complex, dialect-rich settings remains underexplored. This paper presents the first systematic study of multi-task instruction tuning for an Arabic-centric audio LLM, covering a hierarchy of generative tasks (ASR, speech summarization) and discriminative tasks (dialect and emotion identification). To support this study, we introduce AraMega-SSum, a novel dataset for Arabic speech summarization. We fine-tune Qwen2.5-Omni (7B) and propose Task-Progressive Curriculum (TPC) along with Aligner-Based Diverse Sampling (ADS), a strategy that constructs information-dense batches by selecting task- and label-balanced examples. Our results reveal a critical efficiency, robustness trade-off: while ADS accelerates initial convergence and boosts paralinguistic F1-scores, its inherent gradient volatility can destabilize generative decoding under prolonged training. Furthermore, while the TPC stabilizes core acoustic mapping, it often induces negative transfer in downstream tasks. We demonstrate that a Hybrid TPC+ADS Strategy provides an optimal training ``recipe'', first establishing a robust representative foundation before employing diversity-aware refinement to capture fine-grained nuances. These findings offer practical guidance for the efficient adaptation of Omni-models in complex, low-resource multimodal environments.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.