LLM 제어 과정에서 발생하는 데이터 손상 문제 이해 및 완화
Understanding and Mitigating Dataset Corruption in LLM Steering
대조 학습 기반 제어(contrastive steering)는 추론 시 LLM의 생성 동작을 조정하는 간단하고 효과적인 방법으로 알려져 있습니다. 이 방법은 특정 특징을 갖는 프롬프트 응답 예시와 그렇지 않은 예시를 사용하여 중간 활성화 레이어에서 방향을 파악하고, 이 1차원 부분 공간에서 활성화를 이동시킵니다. 그러나 AI 안전 분야에서 널리 사용되고 있음에도 불구하고, 대조 학습 기반 제어가 노이즈 또는 적대적인 데이터 손상에 얼마나 강건한지에 대한 이해는 부족합니다. 본 연구에서는 제어 방향을 학습하는 데 사용되는 예시 데이터의 손상에 대한 이 과정의 강건성을 조사합니다. 첫째, 대조 학습 기반 제어는 어느 정도의 손상에는 비교적 강건하지만, 학습 데이터의 상당 부분이 수정되면 의도치 않은 부작용이 명확하게 나타날 수 있다는 것을 확인했습니다. 둘째, 다양한 유형의 손상에 대한 기하학적 특성을 분석하고, 몇 가지 보호 장치를 식별했습니다. 특히, 제어 방향 학습의 핵심 단계는 고차원 평균 계산인데, 이 단계를 최근 개발된 강건한 평균 추정기로 대체하면 악의적인 손상의 대부분을 완화할 수 있음을 보여줍니다.
Contrastive steering has been shown as a simple and effective method to adjust the generative behavior of LLMs at inference time. It uses examples of prompt responses with and without a trait to identify a direction in an intermediate activation layer, and then shifts activations in this 1-dimensional subspace. However, despite its growing use in AI safety applications, the robustness of contrastive steering to noisy or adversarial data corruption is poorly understood. We initiate a study of the robustness of this process with respect to corruption of the dataset of examples used to train the steering direction. Our first observation is that contrastive steering is quite robust to a moderate amount of corruption, but unwanted side effects can be clearly and maliciously manifested when a non-trivial fraction of the training data is altered. Second, we analyze the geometry of various types of corruption, and identify some safeguards. Notably, a key step in learning the steering direction involves high-dimensional mean computation, and we show that replacing this step with a recently developed robust mean estimator often mitigates most of the unwanted effects of malicious corruption.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.