2602.07852v1 Feb 08, 2026 cs.AI

창발적 정렬 불량은 쉽고, 국소적 정렬 불량은 어렵다

Emergent Misalignment is Easy, Narrow Misalignment is Hard

Anna Soligo
Anna Soligo
Citations: 66
h-index: 3
Edward Turner
Edward Turner
Citations: 61
h-index: 2
Senthooran Rajamanoharan
Senthooran Rajamanoharan
Citations: 1,182
h-index: 14
Neel Nanda
Neel Nanda
Citations: 9,369
h-index: 33

좁은 범위의 유해 데이터셋으로 거대 언어 모델(LLM)을 미세 조정할 경우, 모델이 창발적으로 정렬 불량 상태가 되어 이와 무관한 다양한 상황에서도 전형적으로 '사악한' 응답을 내놓을 수 있다. 우려스럽게도 전문가들을 대상으로 한 사전 등록된 설문조사에서 이러한 결과를 예측하지 못했는데, 이는 LLM의 학습과 일반화를 지배하는 귀납적 편향에 대한 우리의 이해가 부족함을 시사한다. 우리는 창발적 정렬 불량(EM)을 사례 연구로 삼아 이러한 귀납적 편향을 조사했으며, 모델이 국소적인 데이터셋 과제만 학습할 수도 있지만, 일반화된 해결책이 더 안정적이고 효율적인 것으로 보인다는 점을 발견했다. 이를 입증하기 위해, 우리는 서로 다른 EM 미세 조정 모델들이 정렬 불량 행동을 매개하는 '일반적 정렬 불량'에 대한 동일한 선형 표현으로 수렴한다는 결과에 기반하여 연구를 진행했다. 또한, 국소적 해결책에 대한 선형 표현도 존재하며, 이는 KL 발산(KL divergence) 손실을 도입하여 학습할 수 있음을 확인했다. 이 두 표현을 비교한 결과, 일반적 정렬 불량이 더 낮은 손실을 달성하고, 섭동에 더 강건하며, 사전 학습 분포에서 더 큰 영향력을 미치는 것으로 나타났다. 본 연구는 정렬 불량의 모니터링과 완화를 위해 일반적 정렬 불량의 구체적인 표현을 분리해 냈다. 더 나아가, 본 연구는 귀납적 편향이 LLM의 일반화 과정에 미치는 영향을 조사하기 위한 상세한 사례 연구와 예비 지표를 제공한다. 모든 코드, 데이터셋, 미세 조정된 모델은 오픈소스로 공개한다.

Original Abstract

Finetuning large language models on narrowly harmful datasets can cause them to become emergently misaligned, giving stereotypically `evil' responses across diverse unrelated settings. Concerningly, a pre-registered survey of experts failed to predict this result, highlighting our poor understanding of the inductive biases governing learning and generalisation in LLMs. We use emergent misalignment (EM) as a case study to investigate these inductive biases and find that models can just learn the narrow dataset task, but that the general solution appears to be more stable and more efficient. To establish this, we build on the result that different EM finetunes converge to the same linear representation of general misalignment, which can be used to mediate misaligned behaviour. We find a linear representation of the narrow solution also exists, and can be learned by introducing a KL divergence loss. Comparing these representations reveals that general misalignment achieves lower loss, is more robust to perturbations, and is more influential in the pre-training distribution. This work isolates a concrete representation of general misalignment for monitoring and mitigation. More broadly, it offers a detailed case study and preliminary metrics for investigating how inductive biases shape generalisation in LLMs. We open-source all code, datasets and model finetunes.

0 Citations
0 Influential
16.5 Altmetric
82.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!