ASMR-Bench: 머신러닝 연구에서의 악의적 조작 탐지를 위한 평가 도구
ASMR-Bench: Auditing for Sabotage in ML Research
인공지능 시스템이 연구를 자율적으로 수행하는 데 점점 더 많이 사용됨에 따라, 목표와 일치하지 않는 시스템은 탐지를 회피하면서 오해의 소지가 있는 결과를 초래하는 미묘한 결함을 도입할 수 있습니다. 본 연구에서는 머신러닝 연구 코드베이스에서 악의적 조작을 탐지하는 능력에 대한 평가를 위한 벤치마크인 ASMR-Bench (Auditing for Sabotage in ML Research)를 소개합니다. ASMR-Bench는 질적으로 다른 실험 결과를 생성하는 악의적 조작이 포함된 9개의 머신러닝 연구 코드베이스로 구성되어 있습니다. 각 조작은 하이퍼파라미터, 학습 데이터 또는 평가 코드와 같은 구현 세부 사항을 변경하지만, 논문에 설명된 상위 레벨 방법론은 유지합니다. ASMR-Bench를 사용하여 최첨단 LLM 및 LLM 지원 인간 감사관을 평가한 결과, 두 그룹 모두 악의적 조작을 안정적으로 탐지하는 데 어려움을 겪는 것으로 나타났습니다. 가장 우수한 성능은 0.77의 AUROC와 42%의 최고 정확도(top-1 fix rate)를 기록한 Gemini 3.1 Pro였습니다. 또한 LLM을 레드 팀으로 활용하여 LLM이 생성한 악의적 조작은 인간이 생성한 것보다 약하지만, 때로는 동일한 기능을 가진 LLM 감사관조차도 이를 탐지하지 못하는 것을 확인했습니다. 본 연구에서는 AI가 수행하는 연구에 대한 모니터링 및 감사 기술 연구를 지원하기 위해 ASMR-Bench를 공개합니다.
As AI systems are increasingly used to conduct research autonomously, misaligned systems could introduce subtle flaws that produce misleading results while evading detection. We introduce ASMR-Bench (Auditing for Sabotage in ML Research), a benchmark for evaluating the ability of auditors to detect sabotage in ML research codebases. ASMR-Bench consists of 9 ML research codebases with sabotaged variants that produce qualitatively different experimental results. Each sabotage modifies implementation details, such as hyperparameters, training data, or evaluation code, while preserving the high-level methodology described in the paper. We evaluated frontier LLMs and LLM-assisted human auditors on ASMR-Bench and found that both struggled to reliably detect sabotage: the best performance was an AUROC of 0.77 and a top-1 fix rate of 42%, achieved by Gemini 3.1 Pro. We also tested LLMs as red teamers and found that LLM-generated sabotages were weaker than human-generated ones but still sometimes evaded same-capability LLM auditors. We release ASMR-Bench to support research on monitoring and auditing techniques for AI-conducted research.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.