대규모 언어 모델 내 도덕적 기반 추적 연구
Tracing Moral Foundations in Large Language Models
대규모 언어 모델(LLM)은 종종 인간과 유사한 도덕적 판단을 내놓지만, 이것이 내재된 개념 구조를 반영하는 것인지, 아니면 단순한 "도덕적 모방"인지 명확하지 않습니다. 본 연구에서는 도덕적 기반 이론(MFT)을 분석 틀로 사용하여, 두 가지 명령어 튜닝 LLM(Llama-3.1-8B-Instruct 및 Qwen2.5-7B-Instruct) 내에서 도덕적 기반이 어떻게 인코딩, 구성 및 표현되는지를 연구합니다. (i) MFT 개념 표현의 레이어별 분석 및 인간의 도덕적 인식과의 일치성, (ii) 잔차 스트림에 대한 사전 학습된 희소 오토인코더(SAE)를 사용하여 도덕적 개념을 지원하는 희소 특징 식별, (iii) 밀집된 MFT 벡터 및 희소 SAE 특징을 사용한 인과적 제어 개입을 결합한 다층적 접근 방식을 사용합니다. 연구 결과, 두 모델 모두 도덕적 기반을 구조적이고 레이어 의존적인 방식으로 표현하고 있으며, 이는 인간의 판단과 일치합니다. 더 세부적으로, SAE 특징은 특정 기반과 명확한 의미론적 연결을 보여주며, 이는 공유된 표현 내에 부분적으로 분리된 메커니즘이 존재함을 시사합니다. 또한, 밀집 벡터 또는 희소 특징을 따라 제어하면 기반과 관련된 행동에 예측 가능한 변화가 발생하며, 이는 내부 표현과 도덕적 출력 간의 인과적 연결을 입증합니다. 종합적으로, 본 연구 결과는 LLM 내의 도덕적 개념이 분산적이고, 계층적이며, 부분적으로 분리되어 있다는 메커니즘적 증거를 제공하며, 이는 언어의 통계적 규칙성으로부터 다양한 도덕적 구조가 잠재적인 패턴으로 나타날 수 있음을 시사합니다.
Large language models (LLMs) often produce human-like moral judgments, but it is unclear whether this reflects an internal conceptual structure or superficial ``moral mimicry.'' Using Moral Foundations Theory (MFT) as an analytic framework, we study how moral foundations are encoded, organized, and expressed within two instruction-tuned LLMs: Llama-3.1-8B-Instruct and Qwen2.5-7B-Instruct. We employ a multi-level approach combining (i) layer-wise analysis of MFT concept representations and their alignment with human moral perceptions, (ii) pretrained sparse autoencoders (SAEs) over the residual stream to identify sparse features that support moral concepts, and (iii) causal steering interventions using dense MFT vectors and sparse SAE features. We find that both models represent and distinguish moral foundations in a structured, layer-dependent way that aligns with human judgments. At a finer scale, SAE features show clear semantic links to specific foundations, suggesting partially disentangled mechanisms within shared representations. Finally, steering along either dense vectors or sparse features produces predictable shifts in foundation-relevant behavior, demonstrating a causal connection between internal representations and moral outputs. Together, our results provide mechanistic evidence that moral concepts in LLMs are distributed, layered, and partly disentangled, suggesting that pluralistic moral structure can emerge as a latent pattern from the statistical regularities of language alone.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.