2604.19262v1 Apr 21, 2026 cs.CL

CulturALL: LLM의 다국어 및 다문화 역량 평가를 위한 벤치마크 - 실제 기반 작업

CulturALL: Benchmarking Multilingual and Multicultural Competence of LLMs on Grounded Tasks

Weihua Luo
Weihua Luo
Citations: 738
h-index: 13
Bo Zeng
Bo Zeng
Citations: 181
h-index: 4
Baotian Hu
Baotian Hu
Citations: 295
h-index: 10
Shaoxiong Ji
Shaoxiong Ji
Citations: 43
h-index: 4
Alham Fikri Aji
Alham Fikri Aji
MBZUAI
Citations: 8,673
h-index: 37
Wenjian Luo
Wenjian Luo
Citations: 8
h-index: 1
Peiqin Lin
Peiqin Lin
Citations: 140
h-index: 5
Chenyang Lyu
Chenyang Lyu
Citations: 522
h-index: 13
Md Mehrab Hossain
Md Mehrab Hossain
Citations: 6
h-index: 1
Younes Samih
Younes Samih
Citations: 5
h-index: 1
Fan Jiang
Fan Jiang
Citations: 11
h-index: 1
Yu Cao
Yu Cao
Citations: 5
h-index: 1
Dilda Duisenbek
Dilda Duisenbek
Citations: 0
h-index: 0
Adrian Neo Sau Xun
Adrian Neo Sau Xun
Citations: 0
h-index: 0
Daria Pozdniakova
Daria Pozdniakova
Citations: 0
h-index: 0
Liubou Misevich
Liubou Misevich
Citations: 0
h-index: 0
Nevena Marinkovi'c
Nevena Marinkovi'c
Citations: 0
h-index: 0
Ngoc Gia Han Nguyen
Ngoc Gia Han Nguyen
Citations: 5
h-index: 1
Thi Yen Linh Do
Thi Yen Linh Do
Citations: 4
h-index: 1
S. Sophy
S. Sophy
Citations: 4
h-index: 1
Gongbo Tang
Gongbo Tang
Citations: 499
h-index: 7
Longyue Wang
Longyue Wang
Citations: 354
h-index: 7
Haotian Ye
Haotian Ye
Citations: 28
h-index: 3
Chunlan Ma
Chunlan Ma
Citations: 198
h-index: 4
Guanhua Chen
Guanhua Chen
Citations: 38
h-index: 4

최근 전 세계적으로 널리 사용되고 있는 거대 언어 모델(LLM)의 다국어 및 다문화 능력을 평가하는 다양한 벤치마크가 등장했습니다. 그러나 이러한 벤치마크는 대부분 일반적인 언어 이해 능력이나 피상적인 문화적 지식을 평가하는 데 집중하며, 모델이 실제 세계의 맥락 속에서 추론해야 하는 실제 기반 작업에 대한 평가는 부족합니다. 이러한 격차를 해소하기 위해, 우리는 LLM의 다국어 및 다문화 역량을 실제 기반 작업에 대해 평가하는 포괄적이고 도전적인 벤치마크인 CulturALL을 제안합니다. CulturALL은 인간-AI 협업 프레임워크를 통해 구축되었으며, 전문가 어노테이터는 적절한 난이도와 사실 정확성을 보장하고, LLM은 수동 작업 부담을 줄입니다. 다양한 출처를 활용하여 CulturALL은 광범위한 시나리오를 포괄합니다. 각 항목은 신중하게 설계되어 높은 수준의 난이도를 제공하며, CulturALL은 도전적인 벤치마크입니다. CulturALL은 51개 지역의 14개 언어로 구성된 2,610개의 샘플을 포함하며, 16개의 주제를 통해 다양한 실제 기반 작업을 포괄합니다. 실험 결과, CulturALL에서 가장 성능이 좋은 LLM의 정확도는 44.48%로, 개선될 여지가 많음을 보여줍니다.

Original Abstract

Large language models (LLMs) are now deployed worldwide, inspiring a surge of benchmarks that measure their multilingual and multicultural abilities. However, these benchmarks prioritize generic language understanding or superficial cultural trivia, leaving the evaluation of grounded tasks -- where models must reason within real-world, context-rich scenarios -- largely unaddressed. To fill this gap, we present CulturALL, a comprehensive and challenging benchmark to assess LLMs' multilingual and multicultural competence on grounded tasks. CulturALL is built via a human--AI collaborative framework: expert annotators ensure appropriate difficulty and factual accuracy, while LLMs lighten the manual workload. By incorporating diverse sources, CulturALL ensures comprehensive scenario coverage. Each item is carefully designed to present a high level of difficulty, making CulturALL challenging. CulturALL contains 2,610 samples in 14 languages from 51 regions, distributed across 16 topics to capture the full breadth of grounded tasks. Experiments show that the best LLM achieves 44.48% accuracy on CulturALL, underscoring substantial room for improvement.

0 Citations
0 Influential
18.5 Altmetric
92.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!