효율적인 표현은 제어 가능한 표현이다
Efficient Representations are Controllable Representations
모델의 활성화 값에 해석 가능하고 제어 가능한 특징을 가장 간단하게 통합하는 방법은 무엇일까요? 일반적으로 LLM이 내부적으로 개념을 표현하는 방식을 제어하려면 먼저 모델의 기존 특징 구조를 파악한 다음, 이를 변경해야 합니다. 우리는 이러한 복잡한 과정을 생략합니다. 우리는 간단한 보조 손실 함수를 사용하여 LLM을 미세 조정했습니다. 3072개의 잔류 스트림 차원 중 16개를 '비활성(inert)' 해석 가능 플래그로 훈련하여, 생성에 필요한 개념을 단순히 나타내도록 했습니다. 모델은 이러한 플래그를 중심으로 재구성되며, 실제 생성 작업 중에 이러한 플래그에 의존하도록 학습됩니다. 결과적으로, 이러한 비활성 플래그는 진정한 내부 특징이 됩니다. 즉, 추론 시 생성 과정을 제어할 수 있는 해석 가능한 제어 스위치가 됩니다. 왜 이런 방식이 작동할까요? 특징이 특정 위치에 안정적으로 제공되면, 경사 하강법은 다른 위치의 중복된 인코딩을 점진적으로 제거하고, 모델은 자체적인 대안 표현을 약화시킵니다. 모델의 효율성 압력은 해석 가능하고 제어 가능한 표현을 유도할 수 있는 중요한 요소입니다.
What is the most brute-force way to install interpretable, controllable features into a model's activations? Controlling how LLMs internally represent concepts typically requires sophisticated methods to first identify, then intervene on the model's existing feature geometry. We bypass all of this. We finetune an LLM with a simple auxiliary loss, training 16 of its 3072 residual stream dimensions to be inert interpretability flags that simply indicate what concepts are required for generation. The model reorganizes around them anyway, learning to rely on these flags during actual generation tasks. As a result, these inert flags become genuine internal features: interpretable control switches that allow us to steer generation at inference time. Why does this work? When a feature is reliably supplied at a fixed location, gradient descent gradually eliminates redundant encodings elsewhere, and the model erodes its own alternative representations. A model's efficiency pressure is a lever - exploitable to induce interpretable, controllable representations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.