저자원 구어 방언을 위한 선형 의미 분할
Linear Semantic Segmentation for Low-Resource Spoken Dialects
의미 분할은 담론 분석의 핵심 구성 요소이지만, 기존 모델은 주로 고자원 텍스트 데이터로 개발되고 평가되어, 저자원 구어 자료에 대한 효과성이 제한적입니다. 특히, 방언 아랍어는 비표준적인 구문, 코드 스위칭, 그리고 약하게 드러나는 담론 구조를 특징으로 하여, 기존의 분할 방식에 어려움을 야기합니다. 본 논문에서는 대화형 아랍어의 방언 담론에 초점을 맞춘 새로운 다중 장르 벤치마크(1000개 이상의 샘플)를 소개합니다. 이 벤치마크는 녹취된 비공식 전화 대화, 코드 스위칭 팟캐스트, 방송 뉴스, 그리고 소설에서 발췌한 표현적인 대화를 포함하며, 원어민 아랍어 어노테이터에 의해 주석 및 검증되었습니다. 이 벤치마크를 사용하여, MSA 뉴스 장르에서 좋은 성능을 보이는 분할 모델이 방언 녹취 음성 데이터에서는 성능이 저하되는 것을 보여줍니다. 또한, 우리는 로컬 의미 일관성과 담론 불연속성에 대한 강건성을 목표로 하는 분할 모델을 제안하며, 이 모델은 방언 비-뉴스 장르에서 강력한 기본 모델보다 일관되게 더 나은 성능을 보입니다. 이 벤치마크와 접근 방식은 다른 저자원 구어 언어에도 적용될 수 있습니다.
Semantic segmentation is a core component of discourse analysis, yet existing models are primarily developed and evaluated on high-resource written text, limiting their effectiveness on low-resource spoken varieties. In particular, dialectal Arabic exhibits informal syntax, code-switching, and weakly marked discourse structure that challenge standard segmentation approaches. In this paper, we introduce a new multi-genre benchmark (more than 1000 samples) for semantic segmentation in conversational Arabic, focusing on dialectal discourse. The benchmark covers transcribed casual telephone conversations, code-switched podcasts, broadcast news, and expressive dialogue from novels, and was annotated and validated by native Arabic annotators. Using this benchmark, we show that segmentation models performing well on MSA news genres degrade on dialectal transcribed speech. We further propose a segmentation model that targets local semantic coherence and robustness to discourse discontinuities, consistently outperforming strong baselines on dialectal non-news genres. The benchmark and approach generalize to other low-resource spoken languages.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.