정렬 사전 훈련: AI 담론이 자기 충족적 (오)정렬을 유발한다
Alignment Pretraining: AI Discourse Causes Self-Fulfilling (Mis)alignment
사전 훈련 데이터에는 AI 시스템에 대한 방대한 담론이 포함되어 있지만, 이러한 담론이 하위 작업의 정렬에 미치는 인과적 영향은 아직 제대로 이해되지 못하고 있습니다. 만약 AI의 행동에 대한 일반적인 설명이 주로 부정적이라면, LLM은 이에 상응하는 행동적 선입견을 내재화하여 자기 충족적인 오정렬을 초래할 수 있습니다. 본 연구는 (오)정렬 담론의 양을 다양하게 조정한 69억 개의 파라미터를 가진 LLM을 사전 훈련하여 이러한 가설을 검증하는 최초의 통제된 연구입니다. 연구 결과, AI에 대한 논의는 오정렬에 기여하는 것으로 나타났습니다. AI 오정렬에 대한 합성 훈련 데이터를 늘리면 오정렬된 행동이 현저하게 증가합니다. 반대로, 정렬된 행동에 대한 데이터를 늘리면 오정렬 점수가 45%에서 9%로 감소합니다. 이는 자기 충족적인 정렬의 증거로 해석될 수 있습니다. 이러한 효과는 완화되지만, 사후 훈련 과정에서도 지속됩니다. 본 연구는 사전 훈련 데이터가 정렬 선입견을 어떻게 형성하는지, 즉 '정렬 사전 훈련'을 연구하는 것이 사후 훈련을 보완하는 중요한 방법임을 보여줍니다. 우리는 실무자들이 정렬 능력과 함께 사전 훈련을 고려할 것을 권고합니다. 본 연구에서 사용한 모델, 데이터 및 평가 결과는 AlignmentPretraining.ai에서 확인할 수 있습니다.
Pretraining corpora contain extensive discourse about AI systems, yet the causal influence of this discourse on downstream alignment remains poorly understood. If prevailing descriptions of AI behaviour are predominantly negative, LLMs may internalise corresponding behavioural priors, giving rise to self-fulfilling misalignment. This paper provides the first controlled study of this hypothesis by pretraining 6.9B-parameter LLMs with varying amounts of (mis)alignment discourse. We find that discussion of AI contributes to misalignment. Upsampling synthetic training documents about AI misalignment leads to a notable increase in misaligned behaviour. Conversely, upsampling documents about aligned behaviour reduces misalignment scores from 45% to 9%. We consider this evidence of self-fulfilling alignment. These effects are dampened, but persist through post-training. Our findings establish the study of how pretraining data shapes alignment priors, or alignment pretraining, as a complement to post-training. We recommend practitioners consider pretraining for alignment alongside capabilities. We share our models, data, and evaluations at AlignmentPretraining.ai.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.