2603.10351v1 Mar 11, 2026 cs.CL

분리된 정보 병목 현상을 이용한 다국어 LLM 평가 모델의 번역체 편향 완화

Mitigating Translationese Bias in Multilingual LLM-as-a-Judge via Disentangled Information Bottleneck

Jinpeng Wang
Jinpeng Wang
Citations: 62
h-index: 3
Xuefeng Bai
Xuefeng Bai
Citations: 181
h-index: 8
Kehai Chen
Kehai Chen
Citations: 403
h-index: 10
Min Zhang
Min Zhang
Citations: 244
h-index: 8
Youcheng Pan
Youcheng Pan
Citations: 156
h-index: 7
Yang Xiang
Yang Xiang
Citations: 140
h-index: 8
Hongbin Zhang
Hongbin Zhang
Citations: 15
h-index: 3

대규모 언어 모델(LLM)은 다국어 평가의 표준으로 자리 잡았지만, 심각한 번역체 편향을 나타냅니다. 본 논문에서는 번역체 편향을 LLM이 기계 번역 텍스트를 인간이 작성한 참조 텍스트보다 체계적으로 선호하는 현상으로 정의하며, 특히 자원 부족 언어에서 이러한 경향이 두드러집니다. 이러한 편향은 (i) 영어와의 잠재적인 특징 공간 정렬 및 (ii) 교차 언어 예측 가능성과의 인과 관계에 기인한다고 분석합니다. 이러한 편향을 완화하기 위해, 우리는 변분 정보 압축을 통해 최소한의 충분하고 평가에 중요한 표현을 학습하는 강력한 미세 조정 프레임워크인 DIBJudge를 제안합니다. 동시에, DIBJudge는 인위적인 요인을 전용 편향 분기에 명시적으로 분리합니다. 또한, 안정적인 표현과 편향 표현 간의 통계적 의존성을 명시적으로 억제하는 교차 공분산 페널티를 도입하여 효과적인 분리를 장려합니다. 다국어 보상 모델 벤치마크 및 번역체 편향 평가 도구를 활용한 광범위한 실험 결과, 제안하는 DIBJudge는 강력한 기준 모델보다 일관되게 우수한 성능을 보이며, 번역체 편향을 크게 완화하는 것으로 나타났습니다.

Original Abstract

Large language models (LLMs) have become a standard for multilingual evaluation, yet they exhibit a severe systematic translationese bias. In this paper, translationese bias is characterized as LLMs systematically favoring machine-translated text over human-authored references, particularly in low-resource languages. We attribute this bias to spurious correlations with (i) latent manifold alignment with English and (ii) cross-lingual predictability. To mitigate this bias, we propose DIBJudge, a robust fine-tuning framework that learns a minimally sufficient, judgment-critical representation via variational information compression, while explicitly isolating spurious factors into the dedicated bias branch. Furthermore, we incorporate a cross-covariance penalty that explicitly suppresses statistical dependence between robust and bias representations, thereby encouraging effective disentanglement. Extensive evaluations on multilingual reward modeling benchmarks and a dedicated translationese bias evaluation suite demonstrate that the proposed DIBJudge consistently outperforms strong baselines and substantially mitigates translationese bias.

0 Citations
0 Influential
5 Altmetric
25.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!