2602.02343v2 Feb 02, 2026 cs.CL

언어 모델 파라미터 동역학에 대한 통합적 관점: 제어가 작동하는 이유

Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics

Hui Xue
Hui Xue
Citations: 90
h-index: 4
He Sun
He Sun
Citations: 85
h-index: 4
Mengru Wang
Mengru Wang
Citations: 666
h-index: 13
Yunzhi Yao
Yunzhi Yao
Zhejiang University;Shandong University
Citations: 2,875
h-index: 20
Shumin Deng
Shumin Deng
Citations: 5,609
h-index: 38
Huajun Chen
Huajun Chen
Citations: 4,018
h-index: 32
Ningyu Zhang
Ningyu Zhang
Citations: 3,233
h-index: 30
Ziwen Xu
Ziwen Xu
Citations: 473
h-index: 8
Chen Wu
Chen Wu
Citations: 269
h-index: 2
Haiwen Hong
Haiwen Hong
Citations: 186
h-index: 5
Longtao Huang
Longtao Huang
Citations: 111
h-index: 6
Zhixuan Chu
Zhixuan Chu
Citations: 1
h-index: 1

로컬 가중치 미세 조정, LoRA 기반 적응, 활성화 기반 개입 등 대규모 언어 모델(LLM)을 제어하는 방법들은 종종 개별적으로 연구되어 왔으며, 이는 이들 간의 연관성을 가리고 비교를 어렵게 만듭니다. 본 연구에서는 이러한 개입 방식을 제어 신호에 의해 유발되는 동적 가중치 업데이트로 통합적으로 이해하는 프레임워크를 제시합니다. 이러한 관점을 바탕으로, 우리는 제어 효과를 선호도(target 개념으로의 경향성)와 유용성(일관성 있고 작업에 적합한 생성)으로 분리하는 통합적인 선호도-유용성 분석을 제안하고, 극성 쌍 대조 예제를 사용하여 이 두 가지를 공유된 로그 오즈 척도로 측정합니다. 다양한 방법들을 분석한 결과, 선호도와 유용성 사이에는 일관된 절충 관계가 나타나는 것을 관찰했습니다. 즉, 제어 강도가 증가하면 선호도는 향상되지만, 예측 가능한 방식으로 유용성은 감소합니다. 우리는 이러한 현상을 활성화 공간 관점에서 설명합니다. 제어는 선호도를 향상시키기 위해 표현을 target 개념 방향으로 이동시키지만, 유용성은 주로 개입이 모델의 유효한 생성 공간에서 표현을 벗어나게 할 때 감소합니다. 마지막으로, 본 연구에서 제시하는 분석에 기반한 새로운 제어 방식인 SPLIT을 소개하며, 이는 선호도를 향상시키는 동시에 유용성을 더 잘 유지합니다. 관련 코드는 https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md 에서 확인할 수 있습니다.

Original Abstract

Methods for controlling large language models (LLMs), including local weight fine-tuning, LoRA-based adaptation, and activation-based interventions, are often studied in isolation, obscuring their connections and making comparison difficult. In this work, we present a unified view that frames these interventions as dynamic weight updates induced by a control signal, placing them within a single conceptual framework. Building on this view, we propose a unified preference-utility analysis that separates control effects into preference, defined as the tendency toward a target concept, and utility, defined as coherent and task-valid generation, and measures both on a shared log-odds scale using polarity-paired contrastive examples. Across methods, we observe a consistent trade-off between preference and utility: stronger control increases preference while predictably reducing utility. We further explain this behavior through an activation manifold perspective, in which control shifts representations along target-concept directions to enhance preference, while utility declines primarily when interventions push representations off the model's valid-generation manifold. Finally, we introduce a new steering approach SPLIT guided by this analysis that improves preference while better preserving utility. Code is available at https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.

1 Citations
0 Influential
78.558452603542 Altmetric
393.8 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!