분기점이 만나는 곳: 대규모 언어 모델에서 정교하게 제어되는 도덕적 추론
Where Paths Split: Localized, Calibrated Control of Moral Reasoning in Large Language Models
대규모 언어 모델은 종종 다양한 환경에서 이질적인 도덕적 선호도를 나타냅니다. 본 연구에서는 일반적인 능력을 유지하면서 추론 시점에 특정 윤리적 프레임워크로의 지향을 유도하는 방법을 연구합니다. 우리는 '수렴-발산 라우팅(Convergent-Divergent Routing)'이라는 새로운 방법을 제시합니다. 이 방법은 윤리적 프레임워크 관련 경로가 처음으로 수렴하고 분기되는 트랜스포머 블록 내의 최소한의 분기점을 추적하고 수정합니다. 이러한 분기점에서 원치 않는 경로를 차단하면 하위 계산은 방해받지 않으면서 상위 계산은 유지됩니다. 실험 결과, 이 개입만으로도 특정 윤리적 프레임워크에 대한 추론 능력이 향상되는 것을 확인했습니다. 더욱 정교한 제어를 달성하기 위해, 우리는 Common Spatial Patterns를 잔차 흐름에 적용하여 각 분기점 레이어에서 공리주의(utilitarian)와 의무론(deontological) 프레임워크를 구별하는 두 방향을 추출합니다. 그런 다음, 우리는 '이중 로짓 보정(Dual Logit Calibration)'이라는 방법을 도입합니다. 이 방법은 닫힌 형태의 최소 L2-norm 업데이트를 사용하여 잔차를 이 2차원 부분 공간 내에서 이동시켜 결과적인 방향 투영이 사용자가 지정한 선호도 가중치와 일치하도록 합니다. 실제 도덕적 딜레마에 대한 실험 결과, 우리 방법은 안정적으로 선호도 보정을 달성하고 일반적인 능력을 크게 유지하며, 최근의 기준 모델보다 우수한 성능을 보입니다. 또한, 우리 방법은 해석 가능한 메커니즘을 제공합니다.
Large language models often display heterogeneous moral preferences across settings. We study inference-time steering toward a desired ethical framework while preserving general competence. We present Convergent-Divergent Routing, which traces and edits minimal branch points inside transformer blocks where ethical-framework-related pathways first converge and then diverge. Gating non-target branches at these loci blocks the downstream propagation while leaving upstream computations intact. We find that this intervention alone increases targeted ethical-framework reasoning. To achieve fine-grained control, we adapt Common Spatial Patterns to the residual stream and extract, for each branch-point layer, a pair of directions that discriminate between utilitarian and deontological frameworks. We then introduce Dual Logit Calibration, a closed-form, minimum-$\ell_2$-norm update that moves the residual within this two-dimensional subspace so the resulting directional projections align with user-specified preference weights. Experiments on real-life moral dilemmas show that our method reliably achieves preference calibration and largely preserves general capabilities, outperforming recent baselines while providing an interpretable mechanism.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.