기계 번역에서 추론 오류에 대해 얼마나 엄격해야 하는가?
Should We be Pedantic About Reasoning Errors in Machine Translation?
여러 언어 쌍 (영어 $ o$ {스페인어, 프랑스어, 독일어, 중국어, 일본어, 우르두어, 광둥어})에 걸쳐, 번역 과정에서 발생하는 추론 오류를 발견했습니다. 이러한 추론 오류가 얼마나 자주 발생하는지 정량화하기 위해, 추론 평가를 위한 자동 주석 프로토콜을 활용했습니다. 이 프로토콜의 목표는 추론 단계가 다음 세 가지 오류 범주 중 하나인지 여부를 감지하는 것입니다: (1) 원문과 불일치, (2) 모델 가설과 불일치, 또는 (3) 추론 과정과 불일치. 우리는 식별된 추론 오류를 수정하기 위해 다양한 약한-강한 개입 방법을 사용하여 추론 모델을 테스트했습니다. 이러한 개입 방법에는 회피, 제거, 제거 후 재추론, 후회 기반 수정, 그리고 오라클 개입 등이 포함됩니다. 추론 과정에 대한 개입 실험 결과, 추론에 대한 작은 수정은 번역 품질에 큰 영향을 미치지 않지만, 더 강력한 개입은 가장 높은 해결률을 보였습니다. 그러나 번역 품질 향상은 일관되지 않았습니다. 궁극적으로 우리는 기계 번역에서 발생하는 추론 오류를 우르두어에서는 높은 정확도로 식별할 수 있지만, 스페인어에서는 정확도가 낮다는 것을 발견했습니다. 또한, 이러한 추론 오류를 제거하는 것이 초기 오류를 크게 해결하지 못한다는 것을 알 수 있었으며, 이는 기계 번역의 추론 충실도가 제한적임을 시사합니다.
Across multiple language pairings (English $\to$ \{Spanish, French, German, Mandarin, Japanese, Urdu, Cantonese\}), we find reasoning errors in translation. To quantify how often these reasoning errors occur, we leverage an automated annotation protocol for reasoning evaluation wherein the goal is to detect if a reasoning step is any of three error categories: (1) source sentence-misaligned, (2) model hypothesis-misaligned, or (3) reasoning trace-misaligned. We probe the reasoning model with perturbed traces correcting for these identified reasoning errors using an array of weak-to-strong interventions: hedging, removal, re-reasoning after removal, hindsight, and oracle interventions. Experimenting with interventions on the reasoning traces suggests that small corrections to the reasoning have little impact on translation quality, but stronger interventions yield the highest resolution rates, despite translation quality gains being mixed. We find ultimately that reasoning errors in MT can be identified with high precision in Urdu but lower precision in Spanish, but that removing these reasoning errors does not resolve the initial errors significantly, suggesting limited reasoning faithfulness for machine translation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.