2601.06644v1 Jan 10, 2026 cs.CL

언어 모델은 언어 간 추론을 할 수 있는가?

Do Language Models Reason Across Languages?

C. Monz
C. Monz
Citations: 2,116
h-index: 17
Yan Meng
Yan Meng
University of Amsterdam
Citations: 122
h-index: 4
Wafaa Mohammed
Wafaa Mohammed
Citations: 5
h-index: 1

실제 세계의 정보원은 본질적으로 다국어이며, 이는 언어 모델이 여러 언어에 걸쳐 정보를 통합할 수 있는지에 대한 질문을 야기합니다. 본 논문에서는 간단한 두 단계 질의 응답 설정을 소개합니다. 이 설정에서 질문에 답하려면 두 개의 다국어 문서에 대한 추론이 필요합니다. 연구 결과, 언어 모델은 질문에 대한 답변을 제공하는 문서에서 언어적 변동에 더 민감하게 반응하는 것으로 나타났습니다. 이는 답변에 중요한 두 문서 모두 동일한 중요성을 가지는 반면, 언어적 변동이 답변 문서에 더 큰 영향을 미친다는 것을 시사합니다. 단계별 하위 질문 평가를 통해, 다국어 환경에서 최대 33%의 경우 모델이 첫 번째 단계에서 연결 정보를 추론하는 데 실패했지만, 전체 질문에는 정답을 제시한다는 사실을 확인했습니다. 이는 언어 모델, 특히 다국어 환경에서의 추론이 충실한 단계별 분해 과정을 따르지 않을 수 있음을 나타냅니다. 또한, 추론 분해의 부재가 약 18%의 구성 실패를 초래한다는 것을 보여줍니다. 즉, 하위 질문은 모두 정답이지만 최종 두 단계 질문에는 실패하는 경우가 발생합니다. 이를 완화하기 위해, 본 논문에서는 하위 질문을 사용하여 다단계 추론을 안내하는 간단한 세 단계 SUBQ 프롬프팅 방법을 제안합니다. 이 방법은 정확도를 10.1%에서 66.5%로 향상시킵니다.

Original Abstract

The real-world information sources are inherently multilingual, which naturally raises a question about whether language models can synthesize information across languages. In this paper, we introduce a simple two-hop question answering setting, where answering a question requires making inferences over two multilingual documents. We find that language models are more sensitive to language variation in answer-span documents than in those providing bridging information, despite the equal importance of both documents for answering a question. Under a step-by-step sub-question evaluation, we further show that in up to 33% of multilingual cases, models fail to infer the bridging information in the first step yet still answer the overall question correctly. This indicates that reasoning in language models, especially in multilingual settings, does not follow a faithful step-by-step decomposition. Subsequently, we show that the absence of reasoning decomposition leads to around 18% composition failure, where both sub-questions are answered correctly but fail for the final two-hop questions. To mitigate this, we propose a simple three-stage SUBQ prompting method to guide the multi-step reasoning with sub-questions, which boosts accuracy from 10.1% to 66.5%.

0 Citations
0 Influential
8.5 Altmetric
42.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!