2604.17465v1 Apr 19, 2026 cs.AI

언어 모델은 활성화 함수에 적용된 드롭아웃과 가우시안 노이즈를 인식한다

Language models recognize dropout and Gaussian noise applied to their activations

Damiano Fornasiere
Damiano Fornasiere
Citations: 79
h-index: 2
Mirko Bronzi
Mirko Bronzi
Citations: 4
h-index: 2
Spencer Kitts
Spencer Kitts
Citations: 0
h-index: 0
A. Palmas
A. Palmas
Citations: 159
h-index: 6
Y. Bengio
Y. Bengio
Citations: 20,759
h-index: 58
O. Richardson
O. Richardson
Citations: 70
h-index: 2

본 연구는 언어 모델이 활성화 함수에 적용된 변화(perturbation)를 감지하고, 위치를 특정하며, 어느 정도까지는 그 차이를 설명할 수 있다는 증거를 제시합니다. 구체적으로, 우리는 (a) 활성화 함수를 마스킹하여 드롭아웃을 시뮬레이션하거나, (b) 대상 문장에 가우시안 노이즈를 추가합니다. 그런 다음, 모델에게 "이전 문장 중 어떤 문장이 변화가 적용되었습니까?" 또는 "어떤 종류의 변화가 적용되었습니까?"와 같은 객관식 질문을 제시합니다. Llama, Olmo, Qwen 계열의 8B에서 32B 파라미터 규모의 모델들을 테스트한 결과, 대부분의 모델이 변화를 쉽게 감지하고 위치를 특정했으며, 종종 완벽한 정확도를 보였습니다. 또한, 이러한 모델들은 문맥 내에서 학습을 통해 드롭아웃과 가우시안 노이즈를 구별하는 방법을 학습할 수 있습니다. 주목할 만한 점은, Qwen 모델의 '제로샷' 정확도가 변화의 강도에 따라 향상되며, 문맥 내 레이블이 반전되면 정확도가 감소한다는 것입니다. 이는 올바른 답변에 대한 사전 지식을 가지고 있음을 시사합니다. 드롭아웃은 학습 과정에서 정규화 기법으로 사용되는 반면, 가우시안 노이즈는 때때로 추론 과정에서 추가됩니다. 이러한 점을 고려하여, 데이터에 독립적인 '학습 인식' 신호의 가능성과 AI 안전에 대한 함의를 논의합니다. 코드와 데이터는 각각 다음 링크에서 확인할 수 있습니다: [https://github.com/saifh-github/llm-dropout-noise-recognition](https://github.com/saifh-github/llm-dropout-noise-recognition) 및 [https://drive.google.com/file/d/1es-Sfw_AH9GficeXgeqpy87rocrZZ_PQ/view](https://drive.google.com/file/d/1es-Sfw_AH9GficeXgeqpy87rocrZZ_PQ/view).

Original Abstract

We provide evidence that language models can detect, localize and, to a certain degree, verbalize the difference between perturbations applied to their activations. More precisely, we either (a) \emph{mask} activations, simulating \emph{dropout}, or (b) add \emph{Gaussian noise} to them, at a target sentence. We then ask a multiple-choice question such as ``\emph{Which of the previous sentences was perturbed?}'' or ``\emph{Which of the two perturbations was applied?}''. We test models from the Llama, Olmo, and Qwen families, with sizes between 8B and 32B, all of which can easily detect and localize the perturbations, often with perfect accuracy. These models can also learn, when taught in context, to distinguish between dropout and Gaussian noise. Notably, \qwenb's \emph{zero-shot} accuracy in identifying which perturbation was applied improves as a function of the perturbation strength and, moreover, decreases if the in-context labels are flipped, suggesting a prior for the correct ones -- even modulo controls. Because dropout has been used as a training-regularization technique, while Gaussian noise is sometimes added during inference, we discuss the possibility of a data-agnostic ``training awareness'' signal and the implications for AI safety. The code and data are available at \href{https://github.com/saifh-github/llm-dropout-noise-recognition}{link 1} and \href{https://drive.google.com/file/d/1es-Sfw_AH9GficeXgeqpy87rocrZZ_PQ/view}{link 2}, respectively.

0 Citations
0 Influential
49 Altmetric
245.0 Score
Original PDF
0

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!