CulturALL: LLM의 다국어 및 다문화 역량 평가를 위한 벤치마크 - 실제 기반 작업
CulturALL: Benchmarking Multilingual and Multicultural Competence of LLMs on Grounded Tasks
최근 전 세계적으로 널리 사용되고 있는 거대 언어 모델(LLM)의 다국어 및 다문화 능력을 평가하는 다양한 벤치마크가 등장했습니다. 그러나 이러한 벤치마크는 대부분 일반적인 언어 이해 능력이나 피상적인 문화적 지식을 평가하는 데 집중하며, 모델이 실제 세계의 맥락 속에서 추론해야 하는 실제 기반 작업에 대한 평가는 부족합니다. 이러한 격차를 해소하기 위해, 우리는 LLM의 다국어 및 다문화 역량을 실제 기반 작업에 대해 평가하는 포괄적이고 도전적인 벤치마크인 CulturALL을 제안합니다. CulturALL은 인간-AI 협업 프레임워크를 통해 구축되었으며, 전문가 어노테이터는 적절한 난이도와 사실 정확성을 보장하고, LLM은 수동 작업 부담을 줄입니다. 다양한 출처를 활용하여 CulturALL은 광범위한 시나리오를 포괄합니다. 각 항목은 신중하게 설계되어 높은 수준의 난이도를 제공하며, CulturALL은 도전적인 벤치마크입니다. CulturALL은 51개 지역의 14개 언어로 구성된 2,610개의 샘플을 포함하며, 16개의 주제를 통해 다양한 실제 기반 작업을 포괄합니다. 실험 결과, CulturALL에서 가장 성능이 좋은 LLM의 정확도는 44.48%로, 개선될 여지가 많음을 보여줍니다.
Large language models (LLMs) are now deployed worldwide, inspiring a surge of benchmarks that measure their multilingual and multicultural abilities. However, these benchmarks prioritize generic language understanding or superficial cultural trivia, leaving the evaluation of grounded tasks -- where models must reason within real-world, context-rich scenarios -- largely unaddressed. To fill this gap, we present CulturALL, a comprehensive and challenging benchmark to assess LLMs' multilingual and multicultural competence on grounded tasks. CulturALL is built via a human--AI collaborative framework: expert annotators ensure appropriate difficulty and factual accuracy, while LLMs lighten the manual workload. By incorporating diverse sources, CulturALL ensures comprehensive scenario coverage. Each item is carefully designed to present a high level of difficulty, making CulturALL challenging. CulturALL contains 2,610 samples in 14 languages from 51 regions, distributed across 16 topics to capture the full breadth of grounded tasks. Experiments show that the best LLM achieves 44.48% accuracy on CulturALL, underscoring substantial room for improvement.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.