2604.12911v1 Apr 14, 2026 cs.CL

왕복 번역(Round-Trip Translation)을 통해 최첨단 다국어 벤치마크가 놓치고 있는 점을 밝히다

Round-Trip Translation Reveals What Frontier Multilingual Benchmarks Miss

Ameya Prabhu
Ameya Prabhu
Citations: 746
h-index: 12
Matthias Bethge
Matthias Bethge
Citations: 884
h-index: 14
Ronald Skorobogat
Ronald Skorobogat
Citations: 9
h-index: 2

다국어 벤치마크는 최첨단 모델 개발을 이끄는 중요한 역할을 합니다. 그러나 최첨단 모델이 보고하는 다국어 평가는 인기 있는 추론 및 지식 벤치마크와 유사한 구조를 가지지만, 여러 언어에 걸쳐 적용됩니다. 본 연구에서는 이러한 벤치마크, 그리고 결과적으로 다국어 평가가 다국어 능력보다는 수학적 추론 및 사실 정보 검색 능력을 측정함을 보여줍니다. 예를 들어, 특정 유형의 모델은 이러한 벤치마크에서 압도적으로 높은 성능을 보이지만, 실제 다국어 작업(예: LMArena)에서는 오히려 성능이 저하되는 경우가 많습니다. 우리는 간단한 대안을 제안합니다. 즉, 왕복 번역을 통해 다국어 능력을 평가하는 것입니다. 원본 텍스트를 특정 언어로 번역한 다음 다시 원래 언어로 번역하면, 원본과 결과 간의 의미 차이는 다국어 생성 능력의 실패를 드러냅니다. 본 연구에서 제안하는 왕복 번역 방식은 LMArena에서의 사용자 평가와 거의 완벽하게 상관관계( {ho} = 0.94)를 보이며, 인간이 제공하는 번역 참조가 필요 없고, 테스트하는 모델보다 더 뛰어난 다국어 평가자가 필요하지 않습니다. 마지막으로, 본 연구에서는 다양한 언어를 포괄하는 도전적인 왕복 번역 벤치마크인 Lost in Translation (LiT)을 소개합니다. 이는 다국어 최첨단 모델을 현실적으로 평가하는 데 활용될 수 있습니다.

Original Abstract

Multilingual benchmarks guide the development of frontier models. Yet multilingual evaluations reported by frontier models are structured similar to popular reasoning and knowledge benchmarks, but across many languages. We show such benchmarks, and consequently multilingual evaluations, measure mathematical reasoning and factual recall, not multilingual proficiency. For example, thinking variants dramatically outperform instruct variants on these benchmarks, yet often perform worse on real-world multilingual tasks, such as LMArena. We propose a simple alternative: evaluate multilingual capability via round-trip translation. Given text in a source language, translate it to a target language and back; semantic gaps between the original and result expose failures in multilingual generation capabilities. Round-trip translation correlates almost perfectly (\r{ho} = 0.94) with user ratings on LMArena with our benchmark, requires no human reference translations, and does not require a more capable multilingual judge than tested models. Lastly, we introduce Lost in Translation (LiT), a challenging round-trip translation benchmark spanning widely spoken languages worldwide, for realistic evaluation of multilingual frontier models.

0 Citations
0 Influential
7 Altmetric
35.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!