2603.15615v1 Mar 16, 2026 cs.CL

언어 모델에서 나타나는 도덕적 무관심의 메커니즘적 기원

Mechanistic Origin of Moral Indifference in Language Models

Zhuoran Li
Zhuoran Li
Citations: 0
h-index: 0
Yan Teng
Yan Teng
Citations: 313
h-index: 9
Lingyu Li
Lingyu Li
Citations: 41
h-index: 4

대규모 언어 모델(LLM)을 위한 기존의 행동적 정렬 기술은 종종 표면적인 준수와 내부적으로 일치하지 않는 표현 간의 불일치를 간과하여, LLM이 다양한 위험에 노출될 수 있도록 합니다. 더욱 중요한 점은, LLM이 서로 다른 도덕적 개념을 균일한 확률 분포로 압축함으로써 고유한 도덕적 무관심 상태를 가지고 있다는 가설을 제시합니다. 우리는 프로토타입 이론과 Social-Chemistry-101 데이터 세트를 기반으로 구축된 25만 개의 도덕 벡터를 사용하여 LLM의 잠재 표현에서 이러한 무관심을 검증하고 수정합니다. 첫째, 23개의 모델에 대한 분석 결과, 현재 LLM은 반대되는 도덕 범주 간의 구별과 이러한 범주 내의 미세한 일반화 경향을 제대로 표현하지 못하며, 모델 크기, 아키텍처 또는 명시적인 정렬 방식도 이러한 무관심을 변화시키지 못합니다. 둘째, 우리는 Qwen3-8B 모델에 희소 오토인코더를 적용하여 단일 의미의 도덕적 특징을 분리하고, 이를 실제 도덕 벡터와 일치하도록 토폴로지 관계를 재구성합니다. 이러한 표현 정렬은 도덕적 추론 능력과 세분성을 자연스럽게 향상시켜, 독립적인 적대적 평가 벤치마크인 Flames에서 75%의 쌍별 승률을 달성합니다. 마지막으로, 우리는 경험론적 철학의 관점에서 현재의 개입 방법의 치유적 본질에 대해 설명하고, 내재적으로 정렬된 AI를 위해서는 사후 수정보다는 적극적인 육성이 필요할 수 있다고 주장합니다.

Original Abstract

Existing behavioral alignment techniques for Large Language Models (LLMs) often neglect the discrepancy between surface compliance and internal unaligned representations, leaving LLMs vulnerable to long-tail risks. More crucially, we posit that LLMs possess an inherent state of moral indifference due to compressing distinct moral concepts into uniform probability distributions. We verify and remedy this indifference in LLMs' latent representations, utilizing 251k moral vectors constructed upon Prototype Theory and the Social-Chemistry-101 dataset. Firstly, our analysis across 23 models reveals that current LLMs fail to represent the distinction between opposed moral categories and fine-grained typicality gradients within these categories; notably, neither model scaling, architecture, nor explicit alignment reshapes this indifference. We then employ Sparse Autoencoders on Qwen3-8B, isolate mono-semantic moral features, and targetedly reconstruct their topological relationships to align with ground-truth moral vectors. This representational alignment naturally improves moral reasoning and granularity, achieving a 75% pairwise win-rate on the independent adversarial Flames benchmark. Finally, we elaborate on the remedial nature of current intervention methods from an experientialist philosophy, arguing that endogenously aligned AI might require a transformation from post-hoc corrections to proactive cultivation.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!