호도스코프: AI 오작동 감시를 위한 비지도 학습 기반 모니터링
Hodoscope: Unsupervised Monitoring for AI Misbehaviors
기존의 AI 에이전트 모니터링 방식은 주로 지도 학습 기반으로, 사람이 작성한 규칙이나 LLM(대규모 언어 모델) 기반 평가자가 미리 정의된 오류 유형을 검사하는 방식입니다. 그러나 새로운 유형의 오작동은 기존 범주에 완전히 포함되지 않을 수 있으며, LLM 기반 평가자는 신뢰성이 낮을 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 비지도 학습의 개념을 활용하여 비지도 모니터링 방식을 제안합니다. 특정 오작동을 검사하는 대신, 비지도 모니터는 사용자가 사전에 문제가 된다고 정의하지 않은 에이전트의 문제 행동을 발견하도록 돕습니다. 즉, 문제 행동의 정의는 사용자가 결정하도록 합니다. 우리는 문제 행동이 종종 뚜렷한 특징을 가진다는 것을 관찰했습니다. 예를 들어, 벤치마크의 허점을 악용하는 모델은 정상적인 모델에서 나타나지 않는 행동을 보이며, 특정 평가 환경에서만 나타나는 취약점은 동일한 모델이 여러 벤치마크에서 실행될 때 행동 이상으로 나타납니다. 이러한 점을 고려하여, 우리는 그룹 간의 행동 차이를 비지도 모니터링의 주요 신호로 사용합니다. 우리는 이러한 아이디어를 구현한 도구인 Hodoscope을 소개합니다. Hodoscope은 그룹 간의 행동 분포를 비교하고, 뚜렷하고 잠재적으로 의심스러운 행동 패턴을 사용자에게 제시합니다. Hodoscope을 사용하여, Commit0 벤치마크에서 알려지지 않았던 취약점(ground truth 복구를 가능하게 하는 unsquashed git history로 인해 최소 5개의 모델의 점수가 부풀려짐)을 발견했으며, ImpossibleBench와 SWE-bench에서 이미 알려진 공격을 독립적으로 재현했습니다. 정량적 평가 결과, 우리 방법은 단순한 무작위 샘플링 방식에 비해 리뷰 노력을 6~23배 줄일 수 있습니다. 마지막으로, Hodoscope을 통해 발견된 행동 설명을 사용하여 LLM 기반 평가기의 정확도를 향상시킬 수 있으며, 이는 비지도 모니터링에서 지도 모니터링으로 나아가는 경로를 보여줍니다.
Existing approaches to monitoring AI agents rely on supervised evaluation: human-written rules or LLM-based judges that check for known failure modes. However, novel misbehaviors may fall outside predefined categories entirely and LLM-based judges can be unreliable. To address this, we formulate unsupervised monitoring, drawing an analogy to unsupervised learning. Rather than checking for specific misbehaviors, an unsupervised monitor assists humans in discovering problematic agent behaviors without prior assumptions about what counts as problematic, leaving that determination to the human. We observe that problematic behaviors are often distinctive: a model exploiting a benchmark loophole exhibits actions absent from well-behaved baselines, and a vulnerability unique to one evaluation manifests as behavioral anomalies when the same model runs across multiple benchmarks. This motivates using group-wise behavioral differences as the primary signal for unsupervised monitoring. We introduce Hodoscope, a tool that operationalizes this insight. Hodoscope compares behavior distributions across groups and highlights distinctive and potentially suspicious action patterns for human review. Using Hodoscope, we discover a previously unknown vulnerability in the Commit0 benchmark (unsquashed git history allowing ground-truth recovery, inflating scores for at least five models) and independently recover known exploits on ImpossibleBench and SWE-bench. Quantitative evaluation estimates that our method reduces review effort by 6-23$\times$ compared to naive uniform sampling. Finally, we show that behavior descriptions discovered through Hodoscope could improve the detection accuracy of LLM-based judges, demonstrating a path from unsupervised to supervised monitoring.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.