2605.14749v1 May 14, 2026 cs.CL

대규모 언어 모델에 대한 비선형적 개입 연구

Non-linear Interventions on Large Language Models

Sangwoo Kim
Sangwoo Kim
Citations: 5
h-index: 2

개입(Intervention)은 대규모 언어 모델(LLM)의 내부 표현을 이해하는 데 가장 대표적이고 널리 사용되는 방법 중 하나입니다. 그러나 기존의 개입 방법은 선형 표현 가설에 기반한 선형적 개입에 국한되어, 비선형적인 구조를 가진 특징들을 분석하는 데 한계가 있습니다. 본 연구에서는 비선형적으로 표현된 특징들에 적용될 수 있는 일반적인 개입 프레임워크를 제시하고, 직접적인 출력 신호가 없는 숨겨진 특징에 대한 개입을 가능하게 하는 학습 방법을 제안합니다. 제안하는 프레임워크의 유효성을 거부 우회 조작(refusal bypass steering) 실험을 통해 검증했으며, 비선형적인 특징에 개입함으로써 선형 기반 모델보다 더욱 정확하게 모델을 제어할 수 있음을 확인했습니다.

Original Abstract

Intervention is one of the most representative and widely used methods for understanding the internal representations of large language models (LLMs). However, existing intervention methods are confined to linear interventions grounded in the Linear Representation Hypothesis, leaving features encoded along non-linear manifolds beyond their reach. In this work, we introduce a general formulation of intervention that extends naturally to non-linearly represented features, together with a learning procedure that further enables intervention on implicit features lacking a direct output signature. We validate our framework on refusal bypass steering, where it steers the model more precisely than linear baselines by intervening on a non-linear feature governing refusal.

0 Citations
0 Influential
1 Altmetric
5.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!