번역을 활용한 다국어 평가의 확장 가능한 방법
Translation as a Scalable Proxy for Multilingual Evaluation
최근 LLM(대규모 언어 모델)의 급속한 발전은 중요한 평가상의 난제를 야기했습니다. LLM들이 다국어 능력을 주장하는 반면, 기계 번역을 제외한 포괄적인 벤치마크는 30개 미만의 언어에만 존재하며, 이는 전 세계 7,000개 언어의 98% 이상을 경험적 공백 상태에 놓아두고 있습니다. 전통적인 벤치마크 구축은 비용, 전문 지식 부족, 데이터 오염 등의 확장성 문제를 안고 있습니다. 본 연구에서는 더 간단한 대안의 유효성을 평가합니다. 즉, 번역 품질만으로 모델의 광범위한 다국어 능력을 나타낼 수 있는가? 14개의 모델(10억~720억 파라미터)을 9개의 다양한 벤치마크와 7개의 번역 지표를 사용하여 체계적으로 평가한 결과, 번역 성능이 후속 작업의 성공을 잘 나타내는 지표임을 확인했습니다(예: Phi-4, 중앙 피어슨 상관 계수: MetricX = 0.89, xCOMET = 0.91, SSA-COMET = 0.87). 이러한 결과는 정확한 번역을 지원하는 표현 능력이 다국어 이해에 필요한 능력과 상당 부분 겹친다는 것을 시사합니다. 따라서 번역 품질은 다국어 성능의 강력하고 저렴한 초기 지표로, 번역을 우선적으로 활용하여 전반적인 성능을 평가하고, 특정 작업에 대해서는 추가적인 검증을 수행할 수 있습니다.
The rapid proliferation of LLMs has created a critical evaluation paradox: while LLMs claim multilingual proficiency, comprehensive non-machine-translated benchmarks exist for fewer than 30 languages, leaving >98% of the world's 7,000 languages in an empirical void. Traditional benchmark construction faces scaling challenges such as cost, scarcity of domain experts, and data contamination. We evaluate the validity of a simpler alternative: can translation quality alone indicate a model's broader multilingual capabilities? Through systematic evaluation of 14 models (1B-72B parameters) across 9 diverse benchmarks and 7 translation metrics, we find that translation performance is a good indicator of downstream task success (e.g., Phi-4, median Pearson r: MetricX = 0.89, xCOMET = 0.91, SSA-COMET = 0.87). These results suggest that the representational abilities supporting faithful translation overlap with those required for multilingual understanding. Translation quality, thus emerges as a strong, inexpensive first-pass proxy of multilingual performance, enabling a translation-first screening with targeted follow-up for specific tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.