2602.15373v2 Feb 17, 2026 cs.CL

멀리까지: 호주 및 인도 영어의 속어에 대한 언어 모델 평가

Far Out: Evaluating Language Models on Slang in Australian and Indian English

Deniz Kaya Dilsiz
Deniz Kaya Dilsiz
Citations: 0
h-index: 0
Dipankar Srirag
Dipankar Srirag
Citations: 0
h-index: 0
A. Joshi
A. Joshi
Citations: 92
h-index: 3

언어 모델은 표준화되지 않은 언어 변형을 처리할 때 체계적인 성능 격차를 보이지만, 특정 변형에 따른 속어를 이해하는 능력은 여러 언어에서 충분히 연구되지 않았습니다. 본 연구에서는 최첨단 언어 모델 7개에 대해 인도 영어(en-IN)와 호주 영어(en-AU)의 속어 인지 능력을 종합적으로 평가합니다. 우리는 두 가지 보완적인 데이터셋을 구축했습니다. 하나는 Urban Dictionary에서 수집한 377개의 웹 기반 사용 예시를 포함하는 WEB 데이터셋이고, 다른 하나는 다양한 시나리오에서 이러한 속어 용어의 1,492개의 인공적으로 생성된 사용 예시를 포함하는 GEN 데이터셋입니다. 우리는 언어 모델을 세 가지 작업(목표 단어 예측(TWP), 안내된 목표 단어 예측(TWP$^^*$) 및 목표 단어 선택(TWS))에 대해 평가합니다. 우리의 결과는 다음과 같은 네 가지 주요 결과를 보여줍니다: (1) 평균적으로 TWS 작업이 TWP 및 TWP$^^*$ 작업보다 성능이 높으며, 평균 정확도는 각각 0.03에서 0.49으로 증가합니다. (2) 평균적으로 WEB 데이터셋에서 GEN 데이터셋보다 성능이 높으며, TWP 및 TWP$^^*$ 작업에서 평균 유사도 점수가 각각 0.03과 0.05 증가합니다. (3) 모든 모델과 데이터셋을 평균적으로 고려했을 때, en-IN 작업이 en-AU 작업보다 성능이 우수하며, 특히 TWS 작업에서 가장 큰 차이를 보이며 평균 정확도가 0.44에서 0.54으로 증가합니다. 이러한 결과는 특히 영어와 같이 기술적으로 발달된 언어에서, 변형별 언어, 특히 속어 표현의 맥락에서 생성적 능력과 판별적 능력 간의 근본적인 비대칭성을 강조합니다.

Original Abstract

Language models exhibit systematic performance gaps when processing text in non-standard language varieties, yet their ability to comprehend variety-specific slang remains underexplored for several languages. We present a comprehensive evaluation of slang awareness in Indian English (en-IN) and Australian English (en-AU) across seven state-of-the-art language models. We construct two complementary datasets: WEB, containing 377 web-sourced usage examples from Urban Dictionary, and GEN, featuring 1,492 synthetically generated usages of these slang terms, across diverse scenarios. We assess language models on three tasks: target word prediction (TWP), guided target word prediction (TWP$^*$) and target word selection (TWS). Our results reveal four key findings: (1) Higher average model performance TWS versus TWP and TWP$^*$, with average accuracy score increasing from 0.03 to 0.49 respectively (2) Stronger average model performance on WEB versus GEN datasets, with average similarity score increasing by 0.03 and 0.05 across TWP and TWP$^*$ tasks respectively (3) en-IN tasks outperform en-AU when averaged across all models and datasets, with TWS demonstrating the largest disparity, increasing average accuracy from 0.44 to 0.54. These findings underscore fundamental asymmetries between generative and discriminative competencies for variety-specific language, particularly in the context of slang expressions despite being in a technologically rich language such as English.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!