2602.09987v2 Feb 10, 2026 cs.LG

인퓨전(Infusion): 영향 함수를 활용하여 학습 데이터를 편집함으로써 모델의 동작을 제어하는 방법

Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions

Jakob N. Foerster
Jakob N. Foerster
Citations: 33
h-index: 3
J. Rosser
J. Rosser
Citations: 9
h-index: 2
Robert Kirk
Robert Kirk
University College London
Citations: 1,196
h-index: 9
E. Grefenstette
E. Grefenstette
Citations: 12
h-index: 2
L. Ruis
L. Ruis
Citations: 581
h-index: 9
Mit Csail
Mit Csail
Citations: 1,816
h-index: 19

영향 함수는 일반적으로 모델의 동작을 학습 데이터에 연결하는 데 사용됩니다. 본 연구에서는 그 반대로, 모델의 동작을 유도하는 학습 데이터를 설계하는 방법을 탐구합니다. 저희가 제안하는 프레임워크인 '인퓨전(Infusion)'은 확장 가능한 영향 함수 근사 방법을 사용하여 모델의 파라미터 변화를 통해 특정 동작 변화를 유도하는 학습 데이터에 대한 작은 수정 사항을 계산합니다. 저희는 인퓨전(Infusion)을 사용하여 컴퓨터 비전 및 자연어 처리 분야의 데이터 오염(data poisoning) 작업을 평가했습니다. CIFAR-10 데이터셋에서, 인퓨전(Infusion)을 사용하여 학습 데이터의 0.2% (100/45,000)에만 미세한 변경을 적용하면, 소수의 명시적인 동작 예제를 삽입하는 기준 성능과 경쟁할 수 있음을 보여주었습니다. 또한, 인퓨전(Infusion)이 서로 다른 아키텍처(ResNet $ ightarrow$ CNN) 간에 적용 가능하다는 점을 확인했으며, 이는 단일 오염된 데이터셋이 여러 독립적으로 학습된 모델에 영향을 미칠 수 있음을 시사합니다. 초기 자연어 처리 실험에서, 저희 방법이 대상 동작의 발생 확률을 증가시키는 경우와 실패하는 경우를 분석한 결과, 모델이 이미 학습한 동작을 증폭하는 데 가장 효과적임을 확인했습니다. 종합적으로, 이러한 결과는 학습 데이터에 대한 작은 변화가 모델의 동작을 체계적으로 형성할 수 있음을 보여주며, 공격자와 방어자 모두에게 학습 데이터 해석의 중요성을 강조합니다. 관련 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/jrosseruk/infusion.

Original Abstract

Influence functions are commonly used to attribute model behavior to training documents. We explore the reverse: crafting training data that induces model behavior. Our framework, Infusion, uses scalable influence-function approximations to compute small perturbations to training documents that induce targeted changes in model behavior through parameter shifts. We evaluate Infusion on data poisoning tasks across vision and language domains. On CIFAR-10, we show that making subtle edits via Infusion to just 0.2% (100/45,000) of the training documents can be competitive with the baseline of inserting a small number of explicit behavior examples. We also find that Infusion transfers across architectures (ResNet $\leftrightarrow$ CNN), suggesting a single poisoned corpus can affect multiple independently trained models. In preliminary language experiments, we characterize when our approach increases the probability of target behaviors and when it fails, finding it most effective at amplifying behaviors the model has already learned. Taken together, these results show that small, subtle edits to training data can systematically shape model behavior, underscoring the importance of training data interpretability for adversaries and defenders alike. We provide the code here: https://github.com/jrosseruk/infusion.

0 Citations
0 Influential
29.5 Altmetric
147.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!