토큰 수준 데이터 필터링을 통한 능력 조절
Shaping capabilities with token-level data filtering
현재 언어 모델에서 원치 않는 기능을 줄이는 방법은 대부분 사후 처리 방식으로, 공격에 의해 쉽게 우회될 수 있습니다. 보다 자연스러운 대안은 사전 학습 과정 자체에서 기능을 조절하는 것입니다. 의료 관련 기능을 제거하는 프록시 작업에서, 사전 학습 데이터를 필터링하는 간단한 방법이 매우 효과적이고, 안정적이며, 대규모로 적용하기에 저렴하다는 것을 보여줍니다. 데이터 기여도 분석 연구를 바탕으로, 문서 필터링보다 토큰 필터링이 더 효과적이며, 원치 않는 기능에 대한 영향은 동일하게 유지하면서 정상적인 기능에 대한 손실을 줄일 수 있음을 입증합니다. 다양한 크기의 모델을 학습하면서, 규모가 커질수록 필터링의 효과가 증가한다는 것을 확인했습니다. 특히, 가장 큰 모델의 경우 토큰 필터링은 '잊혀진' 영역에서의 연산 속도를 7000배까지 늦추었습니다. 또한, 토큰 필터링을 통해 학습된 모델은 '잊혀진' 영역에서 여전히 원하는 방향으로 조정될 수 있음을 보여줍니다. 이 과정에서, 희소 오토인코더와 저렴하고 고품질의 분류기를 활용하여 토큰을 레이블링하는 방법론을 제시하며, 충분한 사전 학습 연산량을 확보하면 필터링이 노이즈가 있는 레이블에 강건할 수 있음을 보여줍니다.
Current approaches to reducing undesired capabilities in language models are largely post hoc, and can thus be easily bypassed by adversaries. A natural alternative is to shape capabilities during pretraining itself. On the proxy task of removing medical capabilities, we show that the simple intervention of filtering pretraining data is highly effective, robust, and inexpensive at scale. Inspired by work on data attribution, we show that filtering tokens is more effective than filtering documents, achieving the same hit to undesired capabilities at a lower cost to benign ones. Training models spanning two orders of magnitude, we then demonstrate that filtering gets more effective with scale: for our largest models, token filtering leads to a 7000x compute slowdown on the forget domain. We also show that models trained with token filtering can still be aligned on the forget domain. Along the way, we introduce a methodology for labeling tokens with sparse autoencoders and distilling cheap, high-quality classifiers. We also demonstrate that filtering can be robust to noisy labels with sufficient pretraining compute.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.