공격 선택은 신뢰할 수 있는 모니터링 환경에서 집중된 AI 제어 시스템의 안전성을 저하시킨다
Attack Selection Reduces Safety in Concentrated AI Control Settings against Trusted Monitoring
향후 AI 시스템은 악의적인 행위를 감지하기 위해 모니터링될 가능성이 높습니다. 이러한 AI 시스템이 적대적으로 공격을 선택하여 모니터링 시스템을 무력화하는 능력(공격 선택)은 특히 우려스러운 문제입니다. 이를 연구하기 위해, 우리는 red team이 공격 정책을 생성하여 BigCodeBench 백도어링 환경에서 모니터링 시스템에 의해 탐지되지 않도록 코드에 공격을 삽입하는 시도를 수행했습니다. 우리는 공격 선택을 공격과 품질 점수 간의 매핑, 그리고 품질 점수와 제출 확률 간의 매핑이라는 두 가지 문제로 분해했습니다. 우리는 공격 선택을 분류 문제로 정의하고, 안전성이 TPR(True Positive Rate, 참 양성률)보다 FPR(False Positive Rate, 거짓 양성률)에 훨씬 더 민감하게 반응한다는 것을 보여주었습니다. 공격 모델에게 모니터링 시스템에 대해 추론하도록 하고 동시에 공격 선택에 신중하게 접근하도록 유도하면, 0.5%의 감사 예산 하에서 안전성이 99%에서 59%로 현저히 감소한다는 것을 발견했습니다. 이는 모델의 공격 선택 능력을 파악하는 것이 제어 평가에서 지나치게 낙관적인 안전성 점수를 피하는 데 매우 중요하다는 것을 강조합니다.
Future AI deployments will likely be monitored for malicious behaviour. The ability of these AIs to subvert monitors by adversarially selecting against them - attack selection - is particularly concerning. To study this, we let a red team create attack policies that attempt to insert attacks into code without being caught by a monitor in the concentrated BigCodeBench backdooring setting. We decompose attack selection into two problems: mapping attacks to a quality score and mapping quality scores to submission probabilities. We frame attack selection as a classification problem and show that safety is significantly more sensitive to FPR than TPR. We find that prompting the attacker model to reason about the monitor while being cautious with attack selection reduces safety from a baseline of 99% to 59% at 0.5% auditing budget, emphasizing that eliciting attack selection capabilities of models is vital to avoid overly optimistic safety scores in control evaluations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.