2603.21461v1 Mar 23, 2026 cs.LG

DSPA: 데이터 효율적인 선호도 정렬을 위한 동적 SAE 조향

DSPA: Dynamic SAE Steering for Data-Efficient Preference Alignment

Virginia Smith
Virginia Smith
Citations: 63
h-index: 4
J. Wedgwood
J. Wedgwood
Citations: 81
h-index: 3
Aashiq Muhamed
Aashiq Muhamed
Citations: 345
h-index: 8
Mona T. Diab
Mona T. Diab
Citations: 63
h-index: 4

선호도 정렬은 일반적으로 선호도 데이터를 이용한 가중치 업데이트 훈련을 통해 이루어지며, 이는 상당한 연산량을 요구하고 메커니즘적인 이해를 제한합니다. 본 논문에서는 추론 시간에 적용 가능한 동적 SAE 조향 (Dynamic SAE Steering, DSPA)을 제안합니다. DSPA는 희소 자동 인코더 (SAE)의 조향을 프롬프트에 따라 동적으로 변경하는 방법입니다. DSPA는 선호도 트리플을 기반으로 프롬프트 특징과 생성 제어 특징을 연결하는 조건부 차이 맵을 계산하며, 디코딩 과정에서 기본 모델의 가중치를 업데이트하지 않고, 활성화된 토큰에 해당하는 잠재 변수만 수정합니다. Gemma-2-2B/9B 및 Qwen3-8B 모델에서 DSPA는 MT-Bench 성능을 향상시키고, AlpacaEval에서 경쟁력 있는 성능을 보이며, 객관식 문제의 정확도를 유지합니다. 제한된 선호도 데이터 환경에서도 DSPA는 안정적인 성능을 유지하며, 두 단계로 구성된 RAHF-SCIT 파이프라인에 버금가는 성능을 보이면서 정렬 단계의 FLOPs 연산량을 최대 4.47배까지 줄일 수 있습니다. 또한, DSPA가 수정하는 SAE 특징을 분석한 결과, 선호도 방향은 주로 담화 및 스타일 관련 신호에 의해 결정된다는 것을 확인했으며, 조건부 차이 맵 추정 및 상위 k개 요소 제거가 어떤 경우에 타당한지에 대한 이론적 설명을 제공합니다.

Original Abstract

Preference alignment is usually achieved by weight-updating training on preference data, which adds substantial alignment-stage compute and provides limited mechanistic visibility. We propose Dynamic SAE Steering for Preference Alignment (DSPA), an inference-time method that makes sparse autoencoder (SAE) steering prompt-conditional. From preference triples, DSPA computes a conditional-difference map linking prompt features to generation-control features; during decoding, it modifies only token-active latents, without base-model weight updates. Across Gemma-2-2B/9B and Qwen3-8B, DSPA improves MT-Bench and is competitive on AlpacaEval while preserving multiple-choice accuracy. Under restricted preference data, DSPA remains robust and can rival the two-stage RAHF-SCIT pipeline while requiring up to $4.47\times$ fewer alignment-stage FLOPs. Finally, we audit the SAE features DSPA modifies, finding that preference directions are dominated by discourse and stylistic signals, and provide theory clarifying the conditional-difference map estimate and when top-$k$ ablation is principled.

0 Citations
0 Influential
4 Altmetric
20.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!