YaPO: 도메인 적응을 위한 학습 가능한 희소 활성화 조향 벡터
YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation
활성화 개입을 통해 대규모 언어 모델(LLM)을 조향(steering)하는 방식은 정렬 및 개인화를 위한 미세 조정(fine-tuning)의 경량화된 대안으로 부상했습니다. 최근 양방향 선호도 최적화(BiPO) 연구에 따르면, 직접 선호도 최적화(DPO) 방식으로 선호도 데이터에서 밀집 조향 벡터(dense steering vectors)를 직접 학습하여 진실성, 환각, 안전 행동을 제어할 수 있음이 밝혀졌습니다. 그러나 밀집 조향 벡터는 뉴런의 다의성(multi-semanticity)으로 인해 여러 잠재 요인이 얽혀 있는 경우가 많아, 중동 문화권 내에서와 같이 밀접하게 관련된 가치와 행동을 구별해야 하는 세밀한 문화적 정렬 설정에서는 그 효과와 안정성이 제한됩니다. 본 논문에서는 희소 오토인코더(SAE)의 잠재 공간에서 희소 조향 벡터(sparse steering vectors)를 학습하는 '레퍼런스 프리(reference-free)' 방법인 YaPO(Yet another Policy Optimization)를 제안합니다. 희소 코드를 최적화함으로써 YaPO는 분리되고(disentangled), 해석 가능하며, 효율적인 조향 방향을 생성합니다. 실증적으로 우리는 YaPO가 밀집 조향 베이스라인에 비해 더 빠르게 수렴하고, 더 강력한 성능을 달성하며, 향상된 학습 안정성을 보임을 입증합니다. 문화적 정렬 외에도 YaPO는 환각, 부(富) 추구, 탈옥(jailbreak), 권력 추구 등 다양한 정렬 관련 행동으로 일반화될 수 있습니다. 중요한 점은 YaPO가 MMLU에서 측정 가능한 성능 저하 없이 일반 지식을 보존한다는 것입니다. 종합적으로, 우리의 결과는 YaPO가 LLM의 효율적이고 안정적이며 세밀한 정렬을 위한 일반적인 방안을 제공하며, 제어 가능성 및 도메인 적응에 광범위하게 응용될 수 있음을 보여줍니다. 관련 코드와 데이터는 공개되어 있습니다.
Steering Large Language Models (LLMs) through activation interventions has emerged as a lightweight alternative to fine-tuning for alignment and personalization. Recent work on Bi-directional Preference Optimization (BiPO) shows that dense steering vectors can be learned directly from preference data in a Direct Preference Optimization (DPO) fashion, enabling control over truthfulness, hallucinations, and safety behaviors. However, dense steering vectors often entangle multiple latent factors due to neuron multi-semanticity, limiting their effectiveness and stability in fine-grained settings such as cultural alignment, where closely related values and behaviors (e.g., among Middle Eastern cultures) must be distinguished. In this paper, we propose Yet another Policy Optimization (YaPO), a \textit{reference-free} method that learns \textit{sparse steering vectors} in the latent space of a Sparse Autoencoder (SAE). By optimizing sparse codes, YaPO produces disentangled, interpretable, and efficient steering directions. Empirically, we show that YaPO converges faster, achieves stronger performance, and exhibits improved training stability compared to dense steering baselines. Beyond cultural alignment, YaPO generalizes to a range of alignment-related behaviors, including hallucination, wealth-seeking, jailbreak, and power-seeking. Importantly, YaPO preserves general knowledge, with no measurable degradation on MMLU. Overall, our results show that YaPO provides a general recipe for efficient, stable, and fine-grained alignment of LLMs, with broad applications to controllability and domain adaptation. The associated code and data are publicly available\footnote{https://github.com/MBZUAI-Paris/YaPO}.
AI Analysis
Korean Summary
Key Innovations
- 밀집 활성화 공간 대신 SAE(Sparse Autoencoder)의 희소 잠재 공간에서 스티어링 벡터를 학습하여 특성 간 얽힘(entanglement) 문제 해결
- 참조 모델(reference model) 없이 선호도 데이터로부터 직접 희소 벡터를 최적화하는 Reference-free 방식 도입
- SAE의 재구성 오차로 인한 정보 손실을 방지하기 위해 원본 활성화 정보를 보존하는 잔차 보정(Residual Correction) 메커니즘 적용
- 언어적 단서 없이 암시적인 문맥만으로 문화적 규범을 추론해야 하는 상황을 평가하기 위한 새로운 다국어 문화 정렬 벤치마크 및 데이터셋 구축
Learning & Inference Impact
학습 단계에서 YaPO는 LLM과 SAE의 파라미터를 동결하고 오직 희소 벡터만을 업데이트하므로, 전체 모델 미세 조정(Fine-tuning)에 비해 연산 비용이 매우 낮고 BiPO 대비 10배 이상 빠른 수렴 속도를 보입니다. 추론 단계에서는 특정 레이어의 활성화를 SAE로 인코딩하고 학습된 벡터로 조작(steering)한 뒤 다시 디코딩하는 과정이 추가되지만, 이는 모델 전체 재학습 없이 즉각적인 행동 제어를 가능하게 합니다. 또한 희소 공간에서의 조작 덕분에 의도하지 않은 기능 저하를 최소화하며 안정적인 추론 성능을 유지합니다.
Technical Difficulty
Estimated implementation complexity based on methodology.