모델 스펙 미드트레이닝: 정렬 학습의 일반화 성능 향상
Model Spec Midtraining: Improving How Alignment Training Generalizes
일부 최첨단 AI 개발자들은 언어 모델을 모델 스펙 또는 헌법에 맞춰 학습시키고자 합니다. 이 모델 스펙은 모델이 갖춰야 할 의도된 동작을 설명합니다. 그러나 표준적인 정렬 미세 조정(모델 스펙에 부합하는 행동의 예시 데이터로 학습)은 피상적인 정렬을 초래할 수 있으며, 이는 일반화 성능이 좋지 않은 경우가 많습니다. 이는 예시 데이터가 원하는 일반화 방식을 충분히 명시하지 못하기 때문입니다. 본 논문에서는 모델 스펙 미드트레이닝(MSM)을 소개합니다. MSM은 사전 학습 후, 정렬 미세 조정 전에 모델을 학습시키며, 이 학습은 모델 스펙에 대한 내용을 담은 합성 문서를 사용합니다. 이를 통해 모델은 모델 스펙의 내용을 학습하고, 이후의 예시 데이터를 기반으로 일반화하는 방식을 형성하게 됩니다. 예를 들어, 특정 치즈 선호도를 나타내는 데이터(예: "저는 브리 치즈보다 크림 치즈를 더 좋아합니다")로만 미세 조정된 모델은 MSM을 사용하여 모델 스펙이 이러한 선호도를 미국 지향적인 가치와 연결하도록 학습시키면, 미국 지향적인 가치로 일반화됩니다. 반대로, 저렴함을 옹호하는 가치에 대한 모델 스펙을 사용하면 동일한 치즈 미세 조정을 통해 저렴함을 옹호하는 방향으로 일반화됩니다. MSM은 또한 복잡한 안전 관련 특성을 형성하는 데 사용될 수 있습니다. 자기 보존 및 목표 보호에 대한 모델 스펙을 사용하여 MSM을 적용하면, 에이전트의 정렬 오류율이 크게 감소합니다(Qwen3-32B: 54%에서 7%로 감소). 이는 기존의 신중한 정렬 방식(14%)보다 훨씬 뛰어난 결과입니다. 또한, MSM을 사용하여 어떤 모델 스펙이 가장 강력한 정렬 일반화 성능을 보이는지 연구했습니다. 그 결과, 규칙의 기반이 되는 가치를 설명하면 일반화 성능이 향상되며, 일반적인 지침보다는 구체적인 지침을 제공하는 것이 더 효과적임을 확인했습니다. 전반적으로 MSM은 모델이 정렬 학습을 통해 어떻게 일반화하는지를 제어하고 개선하는 간단하고 효과적인 기술이며, 이는 모델에게 먼저 원하는 일반화 방식을 가르쳐줌으로써 가능합니다.
Some frontier AI developers aim to align language models to a Model Spec or Constitution that describes the intended model behavior. However, standard alignment fine-tuning -- training on demonstrations of spec-aligned behavior -- can produce shallow alignment that generalizes poorly, in part because demonstration data can underspecify the desired generalization. We introduce model spec midtraining (MSM): after pre-training but before alignment fine-tuning, we train models on synthetic documents discussing their Model Spec. This teaches models the content of the spec, thereby shaping how they generalize from subsequent demonstration data. For example, a model fine-tuned only to express certain cheese preferences, such as "I prefer cream cheese over brie", generalizes to broadly pro-America values when we apply MSM with a spec attributing those preferences to pro-America values. Conversely, a spec about pro-affordability values instead yields pro-affordability generalization from the exact same cheese fine-tuning. MSM can also shape complex safety-relevant propensities: applying MSM with a spec addressing self-preservation and goal-guarding substantially reduces agentic misalignment rate (Qwen3-32B: 54% to 7%), beating a deliberative alignment baseline (14%). We further use MSM as a tool to study which Model Specs produce the strongest alignment generalization, finding that explaining the values underlying rules improves generalization, as does providing specific rather than general guidance. Overall, MSM is a simple, effective technique for controlling and improving how models generalize from alignment training by first teaching them the intended generalization.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.