추론인가, 수사인가? 대규모 언어 모델의 도덕적 추론 설명에 대한 실증적 분석
Reasoning or Rhetoric? An Empirical Analysis of Moral Reasoning Explanations in Large Language Models
대규모 언어 모델이 실제로 도덕적으로 추론하는 것인지, 아니면 단순히 그렇게 보이는 것인지 조사합니다. 본 연구에서는 LLM이 도덕적 딜레마에 대해 제시하는 답변이 콜버그의 도덕 발달 단계에 따른 진정한 발달 과정을 보이는지, 아니면 정렬 훈련을 통해 성숙한 도덕적 판단과 유사하지만 근본적인 발달 과정은 없는 추론과 유사한 결과를 보이는지 확인합니다. 3개의 평가 모델을 사용하여 검증된 LLM-기반 평가 시스템을 활용하여, 다양한 아키텍처, 파라미터 크기 및 학습 방식을 가진 13개의 LLM에서 얻은 600개 이상의 답변을 6가지 고전적인 도덕적 딜레마에 대해 분류하고, 10가지의 상호 보완적인 분석을 통해 결과 패턴의 본질과 내부 일관성을 파악합니다. 연구 결과, 모델의 크기, 아키텍처 또는 프롬프트 전략에 관계없이 답변은 압도적으로 후전통적 추론(5-6단계)에 해당하며, 이는 인간의 발달적 규범과는 정반대입니다. 특히, 일부 모델에서는 도덕적 분리가 나타나는데, 이는 명시된 도덕적 정당성과 행동 선택 간의 체계적인 불일치를 의미하며, 이는 프롬프트 전략과 규모에 관계없이 지속되는 논리적 일관성 결여를 나타냅니다. 모델 크기는 통계적으로 유의미하지만 실제로는 미미한 영향을 미치며, 학습 유형은 유의미한 독립적인 주 효과가 없습니다. 또한, 모델은 거의 로봇과 같은 방식으로 다양한 딜레마에 대해 일관성을 보이며, 의미적으로 구별되는 도덕적 문제에 대해 논리적으로 구별할 수 없는 답변을 생성합니다. 본 연구는 이러한 패턴이 '도덕적 꼭두각시' 현상에 대한 증거를 제시한다고 주장합니다. 즉, 정렬 훈련을 통해 성숙한 도덕적 추론의 수사적 관습을 습득하지만, 그 관습이 나타내야 할 근본적인 발달 과정은 갖추지 못한다는 것입니다.
Do large language models reason morally, or do they merely sound like they do? We investigate whether LLM responses to moral dilemmas exhibit genuine developmental progression through Kohlberg's stages of moral development, or whether alignment training instead produces reasoning-like outputs that superficially resemble mature moral judgment without the underlying developmental trajectory. Using an LLM-as-judge scoring pipeline validated across three judge models, we classify more than 600 responses from 13 LLMs spanning a range of architectures, parameter scales, and training regimes across six classical moral dilemmas, and conduct ten complementary analyses to characterize the nature and internal coherence of the resulting patterns. Our results reveal a striking inversion: responses overwhelmingly correspond to post-conventional reasoning (Stages 5-6) regardless of model size, architecture, or prompting strategy, the effective inverse of human developmental norms, where Stage 4 dominates. Most strikingly, a subset of models exhibit moral decoupling: systematic inconsistency between stated moral justification and action choice, a form of logical incoherence that persists across scale and prompting strategy and represents a direct reasoning consistency failure independent of rhetorical sophistication. Model scale carries a statistically significant but practically small effect; training type has no significant independent main effect; and models exhibit near-robotic cross-dilemma consistency producing logically indistinguishable responses across semantically distinct moral problems. We posit that these patterns constitute evidence for moral ventriloquism: the acquisition, through alignment training, of the rhetorical conventions of mature moral reasoning without the underlying developmental trajectory those conventions are meant to represent.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.