SlovKE: 슬로바키아 키워드 추출을 위한 대규모 데이터셋 및 LLM 평가
SlovKE: A Large-Scale Dataset and LLM Evaluation for Slovak Keyphrase Extraction
형태론적으로 복잡하고 자원이 부족한 언어에 대한 키워드 추출 연구는 적절한 평가 데이터셋의 부족으로 인해 상대적으로 미흡합니다. 본 연구에서는 슬로바키아어를 대상으로, 슬로바키아 중앙 논문 등록 시스템에서 수집하고 체계적으로 정제한 227,432개의 과학 논문 초록 데이터셋을 구축했습니다. 이 데이터셋은 기존의 가장 큰 슬로바키아 관련 데이터셋보다 25배 크며, KP20K와 같은 영어 벤치마크 수준에 근접합니다. 이 데이터셋을 사용하여 YAKE, TextRank, 그리고 슬로바키아BERT 임베딩을 사용하는 KeyBERT를 포함한 세 가지 비지도 기반 모델을 비교 평가하고, GPT-3.5-turbo를 기반으로 하는 키워드 추출 방법인 KeyLLM을 평가했습니다. 비지도 기반 모델은 최대 11.6%의 정확 일치 F1@6 값을 보였으며, 부분 일치(최대 51.5%)와의 격차가 큽니다. 이는 접사된 표면 형태와 저자가 지정한 키워드를 정확하게 일치시키는 데 어려움이 있음을 반영합니다. KeyLLM은 이러한 정확-부분 일치 격차를 줄이며, 저자가 지정한 표준 형태에 더 가까운 키워드를 생성합니다. 100개의 문서에 대한 수동 평가(κ = 0.61) 결과, KeyLLM은 자동 정확 일치 방법으로는 과소평가되는 관련 개념을 잘 파악한다는 것을 확인했습니다. 분석 결과, 통계적 방법의 주요 실패 원인은 형태소 불일치이며, 이는 다른 접사 언어에도 관련이 있는 발견입니다. 본 연구에서 구축한 데이터셋(https://huggingface.co/datasets/NaiveNeuron/SlovKE)과 평가 코드는 공개적으로 이용 가능합니다(https://github.com/NaiveNeuron/SlovKE).
Keyphrase extraction for morphologically rich, low-resource languages remains understudied, largely due to the scarcity of suitable evaluation datasets. We address this gap for Slovak by constructing a dataset of 227,432 scientific abstracts with author-assigned keyphrases -- scraped and systematically cleaned from the Slovak Central Register of Theses -- representing a 25-fold increase over the largest prior Slovak resource and approaching the scale of established English benchmarks such as KP20K. Using this dataset, we benchmark three unsupervised baselines (YAKE, TextRank, KeyBERT with SlovakBERT embeddings) and evaluate KeyLLM, an LLM-based extraction method using GPT-3.5-turbo. Unsupervised baselines achieve at most 11.6\% exact-match $F1@6$, with a large gap to partial matching (up to 51.5\%), reflecting the difficulty of matching inflected surface forms to author-assigned keyphrases. KeyLLM narrows this exact--partial gap, producing keyphrases closer to the canonical forms assigned by authors, while manual evaluation on 100 documents ($κ= 0.61$) confirms that KeyLLM captures relevant concepts that automated exact matching underestimates. Our analysis identifies morphological mismatch as the dominant failure mode for statistical methods -- a finding relevant to other inflected languages. The dataset (https://huggingface.co/datasets/NaiveNeuron/SlovKE) and evaluation code (https://github.com/NaiveNeuron/SlovKE) are publicly available.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.