2601.10160v2 Jan 15, 2026 cs.CL

정렬 사전 훈련: AI 담론이 자기 충족적 (오)정렬을 유발한다

Alignment Pretraining: AI Discourse Causes Self-Fulfilling (Mis)alignment

Cameron Tice
Cameron Tice
Citations: 32
h-index: 2
Puria Radmard
Puria Radmard
Citations: 71
h-index: 4
D. Africa
D. Africa
Citations: 79
h-index: 5
S. Ratnam
S. Ratnam
Citations: 11
h-index: 1
Andy Kim
Andy Kim
Citations: 21
h-index: 2
Kyle O'Brien
Kyle O'Brien
Geodesic Research
Citations: 2,112
h-index: 6

사전 훈련 데이터에는 AI 시스템에 대한 방대한 담론이 포함되어 있지만, 이러한 담론이 하위 작업의 정렬에 미치는 인과적 영향은 아직 제대로 이해되지 못하고 있습니다. 만약 AI의 행동에 대한 일반적인 설명이 주로 부정적이라면, LLM은 이에 상응하는 행동적 선입견을 내재화하여 자기 충족적인 오정렬을 초래할 수 있습니다. 본 연구는 (오)정렬 담론의 양을 다양하게 조정한 69억 개의 파라미터를 가진 LLM을 사전 훈련하여 이러한 가설을 검증하는 최초의 통제된 연구입니다. 연구 결과, AI에 대한 논의는 오정렬에 기여하는 것으로 나타났습니다. AI 오정렬에 대한 합성 훈련 데이터를 늘리면 오정렬된 행동이 현저하게 증가합니다. 반대로, 정렬된 행동에 대한 데이터를 늘리면 오정렬 점수가 45%에서 9%로 감소합니다. 이는 자기 충족적인 정렬의 증거로 해석될 수 있습니다. 이러한 효과는 완화되지만, 사후 훈련 과정에서도 지속됩니다. 본 연구는 사전 훈련 데이터가 정렬 선입견을 어떻게 형성하는지, 즉 '정렬 사전 훈련'을 연구하는 것이 사후 훈련을 보완하는 중요한 방법임을 보여줍니다. 우리는 실무자들이 정렬 능력과 함께 사전 훈련을 고려할 것을 권고합니다. 본 연구에서 사용한 모델, 데이터 및 평가 결과는 AlignmentPretraining.ai에서 확인할 수 있습니다.

Original Abstract

Pretraining corpora contain extensive discourse about AI systems, yet the causal influence of this discourse on downstream alignment remains poorly understood. If prevailing descriptions of AI behaviour are predominantly negative, LLMs may internalise corresponding behavioural priors, giving rise to self-fulfilling misalignment. This paper provides the first controlled study of this hypothesis by pretraining 6.9B-parameter LLMs with varying amounts of (mis)alignment discourse. We find that discussion of AI contributes to misalignment. Upsampling synthetic training documents about AI misalignment leads to a notable increase in misaligned behaviour. Conversely, upsampling documents about aligned behaviour reduces misalignment scores from 45% to 9%. We consider this evidence of self-fulfilling alignment. These effects are dampened, but persist through post-training. Our findings establish the study of how pretraining data shapes alignment priors, or alignment pretraining, as a complement to post-training. We recommend practitioners consider pretraining for alignment alongside capabilities. We share our models, data, and evaluations at AlignmentPretraining.ai.

11 Citations
2 Influential
3 Altmetric
30.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!