2603.09313v1 Mar 10, 2026 cs.AI

곡선 방향 조향: 올바른 방향은 항상 선형적이지 않다

Curveball Steering: The Right Direction To Steer Isn't Always Linear

Lin Wu
Lin Wu
Citations: 1
h-index: 1
Amirali Abdullah
Amirali Abdullah
Citations: 13
h-index: 2
Jeff M. Phillips
Jeff M. Phillips
Citations: 2
h-index: 1
Shivam Raval
Shivam Raval
Citations: 0
h-index: 0
Abir Harrasse
Abir Harrasse
Citations: 18
h-index: 2
Haerin Song
Haerin Song
Citations: 3
h-index: 1

액티베이션 조향은 내부 표현에 개입하여 대규모 언어 모델(LLM)의 동작을 제어하는 널리 사용되는 방법입니다. 기존 방법은 대부분 선형 표현 가설에 의존하며, 행동 속성은 전역적인 선형 방향을 사용하여 조작할 수 있다고 가정합니다. 그러나 실제로 이러한 선형적 개입은 종종 일관성 없는 결과를 초래합니다. 우리는 LLM의 내부 표현 공간의 고유한 기하학적 구조를 분석하여 이러한 가설에 의문을 제기합니다. 지오데식 거리와 유클리드 거리의 비율을 통해 기하학적 왜곡을 측정하여, 개념에 따라 상당한 왜곡이 발생한다는 것을 관찰했습니다. 이는 LLM의 내부 표현 공간이 전역적으로 선형적인 기하학 구조로 잘 근사되지 않음을 시사합니다. 이러한 점에 착안하여, 우리는 다항식 커널 PCA를 기반으로 하는 비선형 조향 방법인 "곡선 방향 조향"을 제안합니다. 이는 특징 공간에서 개입을 수행하며, 학습된 내부 표현 공간의 기하학적 구조를 더 잘 반영합니다. "곡선 방향 조향"은 특히 기하학적 왜곡이 강한 경우, 선형 PCA 기반 조향보다 일관되게 더 나은 성능을 보입니다. 이는 기하학적 구조를 고려한 비선형 조향이 전역적인 선형 개입에 대한 효과적인 대안임을 시사합니다.

Original Abstract

Activation steering is a widely used approach for controlling large language model (LLM) behavior by intervening on internal representations. Existing methods largely rely on the Linear Representation Hypothesis, assuming behavioral attributes can be manipulated using global linear directions. In practice, however, such linear interventions often behave inconsistently. We question this assumption by analyzing the intrinsic geometry of LLM activation spaces. Measuring geometric distortion via the ratio of geodesic to Euclidean distances, we observe substantial and concept-dependent distortions, indicating that activation spaces are not well-approximated by a globally linear geometry. Motivated by this, we propose "Curveball steering", a nonlinear steering method based on polynomial kernel PCA that performs interventions in a feature space, better respecting the learned activation geometry. Curveball steering consistently outperforms linear PCA-based steering, particularly in regimes exhibiting strong geometric distortion, suggesting that geometry-aware, nonlinear steering provides a principled alternative to global, linear interventions.

0 Citations
0 Influential
1 Altmetric
5.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!