분리된 정보 병목 현상을 이용한 다국어 LLM 평가 모델의 번역체 편향 완화
Mitigating Translationese Bias in Multilingual LLM-as-a-Judge via Disentangled Information Bottleneck
대규모 언어 모델(LLM)은 다국어 평가의 표준으로 자리 잡았지만, 심각한 번역체 편향을 나타냅니다. 본 논문에서는 번역체 편향을 LLM이 기계 번역 텍스트를 인간이 작성한 참조 텍스트보다 체계적으로 선호하는 현상으로 정의하며, 특히 자원 부족 언어에서 이러한 경향이 두드러집니다. 이러한 편향은 (i) 영어와의 잠재적인 특징 공간 정렬 및 (ii) 교차 언어 예측 가능성과의 인과 관계에 기인한다고 분석합니다. 이러한 편향을 완화하기 위해, 우리는 변분 정보 압축을 통해 최소한의 충분하고 평가에 중요한 표현을 학습하는 강력한 미세 조정 프레임워크인 DIBJudge를 제안합니다. 동시에, DIBJudge는 인위적인 요인을 전용 편향 분기에 명시적으로 분리합니다. 또한, 안정적인 표현과 편향 표현 간의 통계적 의존성을 명시적으로 억제하는 교차 공분산 페널티를 도입하여 효과적인 분리를 장려합니다. 다국어 보상 모델 벤치마크 및 번역체 편향 평가 도구를 활용한 광범위한 실험 결과, 제안하는 DIBJudge는 강력한 기준 모델보다 일관되게 우수한 성능을 보이며, 번역체 편향을 크게 완화하는 것으로 나타났습니다.
Large language models (LLMs) have become a standard for multilingual evaluation, yet they exhibit a severe systematic translationese bias. In this paper, translationese bias is characterized as LLMs systematically favoring machine-translated text over human-authored references, particularly in low-resource languages. We attribute this bias to spurious correlations with (i) latent manifold alignment with English and (ii) cross-lingual predictability. To mitigate this bias, we propose DIBJudge, a robust fine-tuning framework that learns a minimally sufficient, judgment-critical representation via variational information compression, while explicitly isolating spurious factors into the dedicated bias branch. Furthermore, we incorporate a cross-covariance penalty that explicitly suppresses statistical dependence between robust and bias representations, thereby encouraging effective disentanglement. Extensive evaluations on multilingual reward modeling benchmarks and a dedicated translationese bias evaluation suite demonstrate that the proposed DIBJudge consistently outperforms strong baselines and substantially mitigates translationese bias.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.