단어 경계를 넘어: 히브리어 지시어 해소 벤치마크 및 형태소적으로 복잡한 텍스트를 위한 평가 프로토콜
Beyond Word Boundaries: A Hebrew Coreference Benchmark and an Evaluation Protocol for Morphologically Complex Text
지시어 해소(Coreference Resolution, CR)는 정보 추출, 요약, 그리고 다양한 비즈니스 애플리케이션과 같은 장문의 텍스트 처리에서 필수적인 자연어 처리(NLP) 과제입니다. 그러나 영어에 맞춰 설계된 CR 방법은 형태소적으로 풍부한 언어(Morphologically Rich Languages, MRLs)에서 어려움을 겪습니다. 그 이유는 지시어 경계가 반드시 단어 경계와 일치하지 않으며, 하나의 토큰이 여러 개의 지시어를 포함할 수 있기 때문입니다. CR 모델링 및 평가 프로토콜은 일반적으로 영어와 마찬가지로 단어와 지시어가 대부분 일치한다고 가정합니다. 그러나 이러한 가정은 특히 LLM의 원시 텍스트 처리 및 엔드 투 엔드 작업의 맥락에서 MRL에서 깨집니다. 이러한 과제를 평가하고 해결하기 위해, 우리는 복잡한 단어와 대명사 접사가 풍부한 현대 히브리어의 첫 번째 종합적인 CR 데이터셋인 {f KibutzR}을 소개합니다. 우리는 단어, 서브워드 및 다중 단어 수준에서 지시어를 식별하는 어노테이션된 데이터셋을 제공하며, 단어/형태소 경계 불일치 문제를 직접적으로 해결하는 평가 프로토콜을 제안합니다. 우리의 실험 결과는 최신 LLM이 히브리어에서 영어보다 현저히 낮은 성능을 보이며, 원시, 분할되지 않은 텍스트에서 성능이 저하된다는 것을 보여줍니다. 더욱 중요한 점은, 우리는 히브리어와 영어 간의 성능 추세가 반전되는 것을 보여줍니다. 즉, 작은 인코더 모델이 최신 디코더 모델보다 훨씬 뛰어난 성능을 보이며, 이는 추가적인 연구 및 개선의 여지를 남깁니다. 우리는 히브리어 지시어 해소를 위한 새로운 벤치마크와 분할 인식 평가 프로토콜을 제공하여 다른 MRL에 대한 향후 연구에 기여하고자 합니다.
Coreference Resolution (CR) is a fundamental NLP task critical for long-form tasks as information extraction, summarization, and many business applications. However, CR methods originally designed for English struggle with Morphologically Rich Languages (MRLs), where mention boundaries do not necessarily align with word boundaries, and a single token may consist of multiple anaphors. CR modeling and evaluation protocols standardly assume that, as in English, words and mentions mostly align. However, this assumption breaks down in MRLs, particularly in the context of LLMs' raw-text processing and end-to-end tasks. To assess and address this challenge, we introduce {\em KibutzR}, the first comprehensive CR dataset for Modern Hebrew, an MRL rich with complex words and pronominal clitics. We deliver an annotated dataset that identifies mentions at word, sub-word and multi-word levels, and propose an evaluation protocol that directly addresses word/morpheme boundary discrepancies. Our experiments show that contemporary LLMs perform significantly worse on Hebrew than on English, and that performance degrades on raw unsegmented text. Crucially, we show an inverse performance-trend in Hebrew relative to English, where smaller encoders perform far better than contemporary decoder models, leaving ample space for investigation and improvement. We deliver a new benchmark for Hebrew coreference resolution and a segmentation-aware evaluation protocol to inform future work on other MRLs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.