LLM 활성화의 생성적 메타 모델 학습
Learning a Generative Meta-Model of LLM Activations
PCA 및 희소 오토인코더와 같은 기존의 신경망 활성화 분석 방법은 강력한 구조적 가정을 필요로 합니다. 생성 모델은 이러한 가정 없이도 구조를 파악하고, 개입의 정확도를 향상시키는 사전 정보 역할을 할 수 있는 대안을 제공합니다. 본 연구에서는 10억 개의 잔차 스트림 활성화 데이터를 사용하여 확산 모델을 훈련시켜 네트워크의 내부 상태 분포를 학습하는 "메타 모델"을 구축했습니다. 실험 결과, 확산 손실은 컴퓨팅 자원이 증가함에 따라 부드럽게 감소하며, 다운스트림 유용성을 안정적으로 예측합니다. 특히, 메타 모델이 학습한 사전 정보를 활용하여 개입 방향을 조정하면 유창성이 향상되며, 손실이 감소할수록 더 큰 효과를 얻을 수 있습니다. 또한, 메타 모델의 뉴런은 점차적으로 개념을 개별 단위로 분리하며, 손실이 감소함에 따라 희소성 probing 점수가 증가하는 경향을 보입니다. 이러한 결과는 생성적 메타 모델이 제한적인 구조적 가정 없이도 해석 가능성을 향상시키는 확장 가능한 방법을 제공할 수 있음을 시사합니다. 프로젝트 페이지: https://generative-latent-prior.github.io.
Existing approaches for analyzing neural network activations, such as PCA and sparse autoencoders, rely on strong structural assumptions. Generative models offer an alternative: they can uncover structure without such assumptions and act as priors that improve intervention fidelity. We explore this direction by training diffusion models on one billion residual stream activations, creating "meta-models" that learn the distribution of a network's internal states. We find that diffusion loss decreases smoothly with compute and reliably predicts downstream utility. In particular, applying the meta-model's learned prior to steering interventions improves fluency, with larger gains as loss decreases. Moreover, the meta-model's neurons increasingly isolate concepts into individual units, with sparse probing scores that scale as loss decreases. These results suggest generative meta-models offer a scalable path toward interpretability without restrictive structural assumptions. Project page: https://generative-latent-prior.github.io.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.