2604.04720v1 Apr 06, 2026 cs.CL

무언어 추론을 성공적으로 이끄는 요소는 무엇인가? 측정 가능한 특징을 활용한 추론 과정 분석

What Makes Good Multilingual Reasoning? Disentangling Reasoning Traces with Measurable Features

Dayeon Ki
Dayeon Ki
Citations: 507
h-index: 5
Kevin Duh
Kevin Duh
Citations: 105
h-index: 2
Marine Carpuat
Marine Carpuat
University of Maryland
Citations: 7,319
h-index: 36

대규모 추론 모델(LRM)은 여전히 영어와 다른 언어 간에 큰 성능 격차를 보이지만, 현재 많은 연구에서는 이러한 격차를 각 언어의 추론 방식을 영어 추론 방식과 유사하게 만들면 해소할 수 있다고 가정합니다. 본 연구는 이러한 가정에 도전하며, 다국어 환경에서 효과적인 추론을 실제로 특징짓는 것은 무엇이며, 영어에서 파생된 추론 특징이 다른 언어에서 얼마나 도움이 되는지 묻습니다. 우리는 다국어 정렬, 추론 단계, 추론 흐름 측면을 포괄하는 다양한 측정 가능한 추론 특징을 정의하고, 로지스틱 회귀 분석을 사용하여 각 특징이 최종 답변 정확도와 어떻게 관련되는지 정량화합니다. 또한, 다국어 추론 데이터를 사용하여 희소 오토인코더를 학습시켜 이러한 특징을 구체화하거나 확장하는 잠재적인 추론 개념을 자동으로 발견합니다. 마지막으로, 이러한 특징을 테스트 시 선택 정책으로 사용하여 모델이 보다 강력한 다국어 추론을 수행하도록 유도할 수 있는지 확인합니다. 두 가지 수학적 추론 벤치마크, 네 가지 LRM, 그리고 10개 언어에 대한 실험 결과, 대부분의 특징이 정확도와 양의 상관관계를 가지지만, 상관관계의 강도는 언어에 따라 크게 다를 수 있으며, 일부 언어에서는 반전될 수도 있음을 확인했습니다. 이러한 결과는 영어 중심적인 보상 설계에 대한 도전을 제기하며, 언어별 추론 패턴을 수용하는 적응형 목표의 필요성을 시사하며, 다국어 벤치마크 및 보상 설계에 대한 구체적인 시사점을 제공합니다.

Original Abstract

Large Reasoning Models (LRMs) still exhibit large performance gaps between English and other languages, yet much current work assumes these gaps can be closed simply by making reasoning in every language resemble English reasoning. This work challenges this assumption by asking instead: what actually characterizes effective reasoning in multilingual settings, and to what extent do English-derived reasoning features genuinely help in other languages? We first define a suite of measurable reasoning features spanning multilingual alignment, reasoning step, and reasoning flow aspects of reasoning traces, and use logistic regression to quantify how each feature associates with final answer accuracy. We further train sparse autoencoders over multilingual traces to automatically discover latent reasoning concepts that instantiate or extend these features. Finally, we use the features as test-time selection policies to examine whether they can steer models toward stronger multilingual reasoning. Across two mathematical reasoning benchmarks, four LRMs, and 10 languages, we find that most features are positively associated with accuracy, but the strength of association varies considerably across languages and can even reverse in some. Our findings challenge English-centric reward designs and point toward adaptive objectives that accommodate language-specific reasoning patterns, with concrete implications for multilingual benchmark and reward design.

0 Citations
0 Influential
18 Altmetric
90.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!