Neural FOXP2: LLM의 목표 언어 개선을 위한 언어 특이 신경망 제어
Neural FOXP2 -- Language Specific Neuron Steering for Targeted Language Improvement in LLMs
LLM은 학습 과정에서 다국어를 지원하지만, 사전 학습 단계에서 영어의 영향력이 크기 때문에 영어가 주요 언어로 사용되는 경향이 있습니다. 다른 언어들은 파라미터 메모리에 저장되지만, 체계적으로 억제됩니다. 본 연구에서는 언어의 기본 설정이 언어 특이 신경망이라는 희소하고 낮은 순위의 제어 회로에 의해 결정되며, 이러한 신경망을 메커니즘적으로 분리하고 안전하게 제어할 수 있다고 주장합니다. 본 연구에서는 Neural FOXP2를 제안합니다. Neural FOXP2는 특정 언어(힌디어 또는 스페인어)를 모델의 주요 언어로 설정하기 위해 언어 특이 신경망을 제어합니다. Neural FOXP2는 세 단계로 진행됩니다. (i) 위치 파악: 각 레이어별로 SAE(Sparse Autoencoder)를 학습시켜 각 활성화가 작은 수의 활성 특징 요소로 분해되도록 합니다. 각 특징에 대해 영어와 힌디어/스페인어의 선택성을 측정하고, 목표 언어 토큰 집합에 대한 전체 로짓-매스 증가를 기준으로 평가합니다. 최상위 순위의 특징을 해당 특징에 가장 큰 영향을 미치는 유닛으로 추적하여 언어 신경망 집합을 구성합니다. (ii) 제어 방향 파악: 스펙트럼 기반의 낮은 순위 분석을 통해 제어 가능한 언어 전환 지오메트리를 파악합니다. 각 레이어별로 영어와 목표 언어 간의 활성화 차이 행렬을 구성하고, 레이어별로 SVD(Singular Value Decomposition)를 수행하여 언어 변화를 지배하는 주요 특이 벡터를 추출합니다. 고유값 간의 간격과 효과적인 순위 스펙트럼을 분석하여 제어 가능한 하위 공간과 개입 가능 영역(여기서 이러한 방향이 가장 강력하고 안정적인 영역)을 식별합니다. (iii) 제어: 언어 신경망에 부호를 부여한 희소 활성화 변화를 적용합니다. 구체적으로, 낮은 레이어부터 중간 레이어까지, 목표 언어의 주요 방향을 따라 양의 제어를 적용하고, 영어 신경망에 대해서는 상쇄되는 음의 제어를 적용하여 제어 가능한 목표 언어 기본 설정을 구현합니다.
LLMs are multilingual by training, yet their lingua franca is often English, reflecting English language dominance in pretraining. Other languages remain in parametric memory but are systematically suppressed. We argue that language defaultness is governed by a sparse, low-rank control circuit, language neurons, that can be mechanistically isolated and safely steered. We introduce Neural FOXP2, that makes a chosen language (Hindi or Spanish) primary in a model by steering language-specific neurons. Neural FOXP2 proceeds in three stages: (i) Localize: We train per-layer SAEs so each activation decomposes into a small set of active feature components. For every feature, we quantify English vs. Hindi/Spanish selectivity overall logit-mass lift toward the target-language token set. Tracing the top-ranked features back to their strongest contributing units yields a compact language-neuron set. (ii) Steering directions: We localize controllable language-shift geometry via a spectral low-rank analysis. For each layer, we build English to target activation-difference matrices and perform layerwise SVD to extract the dominant singular directions governing language change. The eigengap and effective-rank spectra identify a compact steering subspace and an empirically chosen intervention window (where these directions are strongest and most stable). (iii) Steer: We apply a signed, sparse activation shift targeted to the language neurons. Concretely, within low to mid layers we add a positive steering along the target-language dominant directions and a compensating negative shift toward the null space for the English neurons, yielding controllable target-language defaultness.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.