잠재적 자기 성찰: 모델은 이전의 개념 주입을 감지할 수 있다
Latent Introspection: Models Can Detect Prior Concept Injections
우리는 Qwen 32B 모델에서 잠재적인 자기 성찰 능력을 발견하여, 모델이 이전 컨텍스트에 개념이 주입되었을 때 이를 감지하고 어떤 개념이 주입되었는지 식별할 수 있음을 입증했다. 모델은 샘플링된 출력에서는 주입을 부인하지만, 로짓 렌즈(logit lens) 분석을 통해 잔차 스트림(residual stream)에서 명확한 감지 신호가 드러났으며, 이 신호는 최종 레이어에서 감쇠된다. 더욱이, AI 자기 성찰 메커니즘에 대한 정확한 정보로 모델에 프롬프트를 제공하면 이러한 효과를 극적으로 강화할 수 있다. 오탐(false positive)의 증가는 0.6%에 불과한 반면, 주입에 대한 민감도는 대폭 증가(0.3% -> 39.2%)한다. 또한 9개의 주입된 개념과 복구된 개념 간의 상호 정보(mutual information)가 0.62비트에서 1.05비트로 상승하여, 일반적인 노이즈로 인한 현상이라는 설명을 배제한다. 우리의 결과는 모델이 간과하기 쉬운 놀라운 자기 성찰 및 조향 인식(steering awareness) 능력을 가질 수 있음을 보여주며, 이는 잠재적 추론 및 안전성에 중요한 시사점을 갖는다.
We uncover a latent capacity for introspection in a Qwen 32B model, demonstrating that the model can detect when concepts have been injected into its earlier context and identify which concept was injected. While the model denies injection in sampled outputs, logit lens analysis reveals clear detection signals in the residual stream, which are attenuated in the final layers. Furthermore, prompting the model with accurate information about AI introspection mechanisms can dramatically strengthen this effect: the sensitivity to injection increases massively (0.3% -> 39.2%) with only a 0.6% increase in false positives. Also, mutual information between nine injected and recovered concepts rises from 0.62 bits to 1.05 bits, ruling out generic noise explanations. Our results demonstrate models can have a surprising capacity for introspection and steering awareness that is easy to overlook, with consequences for latent reasoning and safety.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.