2604.16286v1 Apr 17, 2026 cs.AI

ASMR-Bench: 머신러닝 연구에서의 악의적 조작 탐지를 위한 평가 도구

ASMR-Bench: Auditing for Sabotage in ML Research

Buck Shlegeris
Buck Shlegeris
Citations: 2,830
h-index: 18
Aryan Bhatt
Aryan Bhatt
Citations: 70
h-index: 4
Eric Gan
Eric Gan
Citations: 14
h-index: 1
J. Stastny
J. Stastny
Citations: 16
h-index: 2
V. Hebbar
V. Hebbar
Citations: 364
h-index: 3

인공지능 시스템이 연구를 자율적으로 수행하는 데 점점 더 많이 사용됨에 따라, 목표와 일치하지 않는 시스템은 탐지를 회피하면서 오해의 소지가 있는 결과를 초래하는 미묘한 결함을 도입할 수 있습니다. 본 연구에서는 머신러닝 연구 코드베이스에서 악의적 조작을 탐지하는 능력에 대한 평가를 위한 벤치마크인 ASMR-Bench (Auditing for Sabotage in ML Research)를 소개합니다. ASMR-Bench는 질적으로 다른 실험 결과를 생성하는 악의적 조작이 포함된 9개의 머신러닝 연구 코드베이스로 구성되어 있습니다. 각 조작은 하이퍼파라미터, 학습 데이터 또는 평가 코드와 같은 구현 세부 사항을 변경하지만, 논문에 설명된 상위 레벨 방법론은 유지합니다. ASMR-Bench를 사용하여 최첨단 LLM 및 LLM 지원 인간 감사관을 평가한 결과, 두 그룹 모두 악의적 조작을 안정적으로 탐지하는 데 어려움을 겪는 것으로 나타났습니다. 가장 우수한 성능은 0.77의 AUROC와 42%의 최고 정확도(top-1 fix rate)를 기록한 Gemini 3.1 Pro였습니다. 또한 LLM을 레드 팀으로 활용하여 LLM이 생성한 악의적 조작은 인간이 생성한 것보다 약하지만, 때로는 동일한 기능을 가진 LLM 감사관조차도 이를 탐지하지 못하는 것을 확인했습니다. 본 연구에서는 AI가 수행하는 연구에 대한 모니터링 및 감사 기술 연구를 지원하기 위해 ASMR-Bench를 공개합니다.

Original Abstract

As AI systems are increasingly used to conduct research autonomously, misaligned systems could introduce subtle flaws that produce misleading results while evading detection. We introduce ASMR-Bench (Auditing for Sabotage in ML Research), a benchmark for evaluating the ability of auditors to detect sabotage in ML research codebases. ASMR-Bench consists of 9 ML research codebases with sabotaged variants that produce qualitatively different experimental results. Each sabotage modifies implementation details, such as hyperparameters, training data, or evaluation code, while preserving the high-level methodology described in the paper. We evaluated frontier LLMs and LLM-assisted human auditors on ASMR-Bench and found that both struggled to reliably detect sabotage: the best performance was an AUROC of 0.77 and a top-1 fix rate of 42%, achieved by Gemini 3.1 Pro. We also tested LLMs as red teamers and found that LLM-generated sabotages were weaker than human-generated ones but still sometimes evaded same-capability LLM auditors. We release ASMR-Bench to support research on monitoring and auditing techniques for AI-conducted research.

0 Citations
0 Influential
9 Altmetric
45.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!