SPINAL: 신경망 정렬 계층에서의 스케일링 법칙 및 선호도 통합
SPINAL -- Scaling-law and Preference Integration in Neural Alignment Layers
직접 선호도 최적화(DPO)는 페어 비교를 통해 대규모 언어 모델을 정렬하는 데 사용되는 원칙적이고 확장 가능한 방법이지만, 그 내부적인 기하학적 구조는 아직 완전히 규명되지 않아, 감사, 체크포인트 비교 및 오류 예측을 제한합니다. 본 논문에서는 SPINAL(Scaling-law and Preference Integration in Neural Alignment Layers)이라는 진단 도구를 소개합니다. SPINAL은 정렬 과정이 깊이에 따라 표현을 어떻게 변화시키는지, 즉 각 계층에서의 국소적인 구조적 변화를 추적하여 분석합니다. 다양한 모델 패밀리에서 DPO는 최종 디코더 블록(일반적으로 21~30층)에 집중된 계층별 보정 효과를 나타내는데, 이는 선호도 기울기가 다음 토큰 분포에 가장 직접적인 영향을 미치는 부분입니다. SPINAL은 각 체크포인트를 (계층 인덱스, 수축 점수, 전송 점수)로 구성된 깊이 추적 정보로 표현합니다. 수축 점수는 계층의 스펙트럼 꼬리 부분이 얼마나 빠르게 감소하는지(즉, 작은 모드가 얼마나 빠르게 사라지는지)를 나타내며, 값이 클수록 더 적은 수의 효과적인 방향으로 수축되는 정도가 강함을 의미합니다. 전송 점수는 인접한 계층 간의 토큰 분포 변화량을 제한된 중첩 측정 방식을 사용하여 요약하며, 값이 작을수록 표현 공간을 통과하는 단계가 짧고 부드러움을 나타냅니다. 정렬된 체크포인트는 후반 계층에서 수축이 증가하고 전송이 감소하는 경향을 보이며, 이는 정책 분포가 더욱 조밀해지고 안정화되는 것과 일관됩니다. 반면, 정렬되지 않은 모델은 더 높은 곡률, 더 높은 엔트로피, 그리고 기하학적으로 일관되지 않은 깊이 경로를 나타냅니다. 전반적으로, 정렬은 기하학적으로 국소화되어 있으며, 즉 최종 계층은 선호도에 의해 유발된 주요 수정 사항을 인코딩합니다. SPINAL은 이러한 국소화를 실질적인 감사 신호로 변환하여, 정렬이 어디에 집중되는지, 얼마나 강하게 나타나는지, 그리고 훈련 중에 언제 불안정해지기 시작하는지를 정량적으로 분석할 수 있도록 합니다.
Direct Preference Optimization (DPO) is a principled, scalable alternative to RLHF for aligning large language models from pairwise preferences, but its internal geometric footprint remains undercharacterized, limiting audits, checkpoint comparisons, and failure prediction. We introduce SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers), a diagnostic that measures how alignment reshapes representations across depth by tracing localized structural change layer by layer. Across model families, DPO produces a layerwise calibration effect concentrated in the final decoder blocks (often layers 21-30), where preference gradients most directly affect the next-token distribution. SPINAL encodes each checkpoint as a depth trace over (layer index, contraction score, transport score). The contraction score summarizes how quickly the tail of a layer's spectrum decays (how fast small modes vanish); higher values indicate stronger contraction into fewer effective directions. The transport score summarizes how much the token distribution shifts between adjacent layers using a bounded overlap measure; lower values indicate shorter, smoother steps through representation space. Aligned checkpoints show a late-layer ramp-up in contraction and a smooth reduction in transport, consistent with tightened and stabilized policy mass, while unaligned models trace higher-curvature, more entropic, and geometrically incoherent depth paths. Overall, alignment is geometrically localized: the final layers encode the dominant preference-induced corrections. SPINAL turns this localization into a practical audit signal, quantifying where alignment concentrates, how strongly it manifests, and when it begins to destabilize during training.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.