LinguaMap: LLM의 어떤 계층이 여러분의 언어를 구사하며, 어떻게 튜닝해야 할까요?
LinguaMap: Which Layers of LLMs Speak Your Language and How to Tune Them?
다국어 사전 훈련에도 불구하고, 대규모 언어 모델은 종종 영어가 아닌 다른 언어로 수행되는 작업에서 어려움을 겪습니다. 특히, 의도된 언어로 응답하는 능력인 언어 제어 측면에서 문제가 발생합니다. 우리는 두 가지 주요 실패 모드를 식별하고 분석했습니다. 첫째는 다국어 전이 병목 현상(올바른 언어 사용, 하지만 작업에 대한 응답이 틀린 경우)이며, 둘째는 언어 일관성 병목 현상(작업에 대한 응답은 맞지만, 언어가 잘못된 경우)입니다. 이러한 문제를 체계적으로 파악하기 위해, MMLU, MGSM, XQuAD 벤치마크를 포함하는 4가지 시나리오로 구성된 평가 프로토콜을 설계했습니다. 해석 가능성을 확보하기 위해, 로짓 렌즈 분석을 확장하여 각 계층별 언어 확률을 추적하고, 은닉 상태의 교차 언어 의미 유사성을 계산했습니다. 분석 결과, 세 단계로 구성된 내부 구조가 드러났습니다. 초기 계층은 입력을 공유된 의미 공간으로 정렬하고, 중간 계층은 작업 추론을 수행하며, 후기 계층은 언어별 텍스트 생성을 담당합니다. 이러한 분석 결과를 바탕으로, 언어 제어에 책임이 있는 최종 계층만 선택적으로 미세 조정하는 방법을 제안합니다. Qwen-3-32B 및 Bloom-7.1B 모델에서 이 방법은 6개 언어에서 98% 이상의 언어 일관성을 달성하면서, 전체 파라미터의 3-5%만 미세 조정하여 작업 정확도를 유지합니다. 중요한 점은 이 결과가 전체 파라미터를 미세 조정하는 방법과 거의 동일하다는 것입니다(예: 모든 프롬프트 시나리오에서 두 방법 모두 98% 이상의 언어 일관성을 달성). 하지만 제안하는 방법은 훨씬 적은 계산 자원을 사용합니다. 우리가 알고 있는 한, 이 연구는 언어 제어의 계층별 특성을 활용하여 효율적인 다국어 적응을 가능하게 하는 첫 번째 시도입니다.
Despite multilingual pretraining, large language models often struggle with non-English tasks, particularly in language control, the ability to respond in the intended language. We identify and characterize two key failure modes: the multilingual transfer bottleneck (correct language, incorrect task response) and the language consistency bottleneck (correct task response, wrong language). To systematically surface these issues, we design a four-scenario evaluation protocol spanning MMLU, MGSM, and XQuAD benchmarks. To probe these issues with interpretability, we extend logit lens analysis to track language probabilities layer by layer and compute cross-lingual semantic similarity of hidden states. The results reveal a three-phase internal structure: early layers align inputs into a shared semantic space, middle layers perform task reasoning, and late layers drive language-specific generation. Guided by these insights, we introduce selective fine-tuning of only the final layers responsible for language control. On Qwen-3-32B and Bloom-7.1B, this method achieves over 98 percent language consistency across six languages while fine-tuning only 3-5 percent of parameters, without sacrificing task accuracy. Importantly, this result is nearly identical to that of full-scope fine-tuning (for example, above 98 percent language consistency for both methods across all prompt scenarios) but uses a fraction of the computational resources. To the best of our knowledge, this is the first approach to leverage layer-localization of language control for efficient multilingual adaptation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.