LLM에서 마음 이론(Theory of Mind)과 자기 인식(Self-Attributions of Mentality)은 분리될 수 있다.
Theory of Mind and Self-Attributions of Mentality are Dissociable in LLMs
대규모 언어 모델(LLM)의 안전성 향상을 위한 미세 조정은 모델이 자신의 의식을 주장하거나 감정을 경험한다고 말하는 등 잠재적으로 위험한 형태의 마음 인식(mind-attribution)을 억제하는 것을 목표로 합니다. 본 연구에서는 이러한 마음 인식 경향을 억제하는 것이 밀접하게 관련된 사회인지 능력, 특히 마음 이론(Theory of Mind, ToM)에 미치는 영향을 조사합니다. 안전성 미세 조정 과정을 제거하고 표현 유사성에 대한 메커니즘 분석을 통해, LLM이 자신과 기술적 대상에 대해 가지는 마음 인식과 마음 이론 능력이 행동적 및 메커니즘적으로 분리될 수 있음을 보여줍니다. 그러나 안전성 미세 조정된 모델은 인간 기준에 비해 비인간 동물에 대한 마음 인식을 과소평가하며, 영적 신념을 나타낼 가능성이 낮아, 비인간 존재의 분포와 본질에 대한 널리 공유되는 관점을 억제합니다.
Safety fine-tuning in Large Language Models (LLMs) seeks to suppress potentially harmful forms of mind-attribution such as models asserting their own consciousness or claiming to experience emotions. We investigate whether suppressing mind-attribution tendencies degrades intimately related socio-cognitive abilities such as Theory of Mind (ToM). Through safety ablation and mechanistic analyses of representational similarity, we demonstrate that LLM attributions of mind to themselves and to technological artefacts are behaviorally and mechanistically dissociable from ToM capabilities. Nevertheless, safety fine-tuned models under-attribute mind to non-human animals relative to human baselines and are less likely to exhibit spiritual belief, suppressing widely shared perspectives regarding the distribution and nature of non-human minds.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.