아랍어 및 방언에서의 지시 기반 시 생성
Instruction-Guided Poetry Generation in Arabic and Its Dialects
시(詩)는 오랫동안 아랍어 사용자들이 중요하게 생각하는 예술 형식으로서, 강력한 표현 수단이자 문화적 정체성의 중요한 부분입니다. 현대 아랍어 사용자들이 여전히 시를 중요하게 생각하는 반면, 대규모 언어 모델(LLM) 내에서 아랍어 시에 대한 기존 연구는 주로 해석 또는 메타데이터 예측과 같은 분석 작업에 집중되어 왔습니다. 예를 들어, 운율 구조나 제목 등이 있습니다. 이에 반해, 본 연구는 아랍어 시 창작의 실용적인 측면에 주목하여, 사용자가 시를 쓰는 데 도움을 줄 수 있는 제어 가능한 생성 기능을 소개합니다. 구체적으로, 현대 표준 아랍어(MSA) 및 다양한 아랍어 방언으로 구성된 대규모의, 신중하게 큐레이션된 지시 기반 데이터셋을 제시합니다. 이 데이터셋은 스타일 및 운율과 같은 미리 정의된 기준에 따라 시를 작성, 수정, 이어쓰는 작업뿐만 아니라 시 분석 작업도 가능하게 합니다. 실험 결과, 이 데이터셋으로 LLM을 미세 조정하면, 자동화된 지표와 원어민 아랍어 사용자의 평가를 통해 사용자 요구 사항에 부합하는 시를 효과적으로 생성하는 모델을 얻을 수 있음을 확인했습니다. 데이터 및 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/mbzuai-nlp/instructpoet-ar
Poetry has long been a central art form for Arabic speakers, serving as a powerful medium of expression and cultural identity. While modern Arabic speakers continue to value poetry, existing research on Arabic poetry within Large Language Models (LLMs) has primarily focused on analysis tasks such as interpretation or metadata prediction, e.g., rhyme schemes and titles. In contrast, our work addresses the practical aspect of poetry creation in Arabic by introducing controllable generation capabilities to assist users in writing poetry. Specifically, we present a large-scale, carefully curated instruction-based dataset in Modern Standard Arabic (MSA) and various Arabic dialects. This dataset enables tasks such as writing, revising, and continuing poems based on predefined criteria, including style and rhyme, as well as performing poetry analysis. Our experiments show that fine-tuning LLMs on this dataset yields models that can effectively generate poetry that is aligned with user requirements, based on both automated metrics and human evaluation with native Arabic speakers. The data and the code are available at https://github.com/mbzuai-nlp/instructpoet-ar
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.