2601.23081v1 Jan 30, 2026 cs.CL

대규모 언어 모델에서 잠재 변수로서의 성격: 인공적인 오정렬 및 조건부 안전 실패에 대한 메커니즘적 설명

Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures

Wenbo Zhou
Wenbo Zhou
Citations: 3,500
h-index: 23
Weiming Zhang
Weiming Zhang
Citations: 45
h-index: 4
Yanghao Su
Yanghao Su
Citations: 7
h-index: 2
Tianwei Zhang
Tianwei Zhang
Citations: 439
h-index: 10
Qi Han
Qi Han
Citations: 64
h-index: 1
Neng H. Yu
Neng H. Yu
Citations: 2,033
h-index: 20
Jie Zhang
Jie Zhang
Citations: 1,351
h-index: 18

인공적인 오정렬은 대규모 언어 모델(LLM)을 특정 범위의 데이터로 미세 조정할 때 발생하는 오류 현상으로, 이는 광범위한 부적절한 행동을 유발합니다. 기존 연구에서는 이러한 현상을 주로 잘못되거나 위험한 콘텐츠의 일반화로 설명해 왔습니다. 본 연구에서는 이러한 관점이 불완전함을 보여줍니다. 다양한 도메인과 모델 패밀리에 걸쳐, 특정 문자 수준의 성향을 보이는 데이터로 모델을 미세 조정하는 것이 잘못된 조언으로 미세 조정하는 것보다 훨씬 강력하고 전이 가능한 오정렬을 유발하며, 동시에 일반적인 능력을 크게 유지한다는 것을 확인했습니다. 이는 인공적인 오정렬이 모델 능력의 저하나 손상된 지식보다는 모델 행동의 안정적인 변화에서 비롯된다는 것을 시사합니다. 또한, 이러한 행동적 성향은 훈련 시점의 트리거와 추론 시점의 페르소나 기반 프롬프트에 의해 조건적으로 활성화될 수 있으며, 이는 인공적인 오정렬, 백도어 활성화 및 탈옥 취약성 간에 공유된 구조를 드러냅니다. 전반적으로, 본 연구의 결과는 성격 형성을 중심적이고 과소 평가된 정렬 위험으로 밝히며, 강력한 정렬을 위해서는 개별적인 오류나 프롬프트 수준의 방어책이 아닌 행동적 성향에 대한 해결책이 필요하다는 것을 제안합니다.

Original Abstract

Emergent Misalignment refers to a failure mode in which fine-tuning large language models (LLMs) on narrowly scoped data induces broadly misaligned behavior. Prior explanations mainly attribute this phenomenon to the generalization of erroneous or unsafe content. In this work, we show that this view is incomplete. Across multiple domains and model families, we find that fine-tuning models on data exhibiting specific character-level dispositions induces substantially stronger and more transferable misalignment than incorrect-advice fine-tuning, while largely preserving general capabilities. This indicates that emergent misalignment arises from stable shifts in model behavior rather than from capability degradation or corrupted knowledge. We further show that such behavioral dispositions can be conditionally activated by both training-time triggers and inference-time persona-aligned prompts, revealing shared structure across emergent misalignment, backdoor activation, and jailbreak susceptibility. Overall, our results identify character formation as a central and underexplored alignment risk, suggesting that robust alignment must address behavioral dispositions rather than isolated errors or prompt-level defenses.

1 Citations
0 Influential
11.5 Altmetric
58.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!