LLM 에이전트의 기만 행위 감시를 위한 헌법 기반 블랙박스 모니터링
Constitutional Black-Box Monitoring for Scheming in LLM Agents
자율적인 환경에서 대규모 언어 모델(LLM) 에이전트를 안전하게 배포하기 위해서는 신뢰할 수 있는 감시 메커니즘이 필요합니다. 핵심적인 과제는 에이전트가 은밀하게 목표를 왜곡하는 '기만' 행위를 탐지하는 것입니다. 이러한 위험을 완화하는 한 가지 방법은 LLM 기반 모니터링으로, 언어 모델을 사용하여 에이전트의 행동을 분석하고 의심스러운 행위를 식별하는 것입니다. 본 연구에서는 헌법 기반 블랙박스 모니터를 소개합니다. 이 모니터는 외부적으로 관찰 가능한 입력과 출력만을 사용하여 기만 행위를 탐지하는 프롬프트 기반 분류기로, 자연어 행동 사양에서 생성된 합성 데이터를 사용하여 최적화됩니다. 우리는 두 가지 합성 에이전트 경로 생성 파이프라인, 즉 STRIDE (반복 개선) 및 Gloom (에이전트-환경 시뮬레이션)을 사용하여 각 파이프라인에서 1,000개의 샘플을 생성했습니다. 우리는 이러한 데이터셋을 사용하여 프롬프트 스윕, 인간 검토 및 자동 프롬프트 최적화를 통해 최첨단 LLM 모니터를 최적화하고, 에이전트가 보다 현실적인 환경에서 작동하는 ControlArena라는 시뮬레이션 환경에서 수집된 7,500개의 보류 데이터셋을 사용하여 성능을 평가했습니다. 우리의 결과는 합성 데이터만을 사용하여 선택된 모니터가 보다 현실적인 환경에서도 일반화될 수 있으며, 의미 있는 기만 신호를 감지할 수 있음을 보여줍니다. 그러나, 우리의 설정에서는 성능이 빠르게 포화되는 경향이 있으며, 간단한 프롬프트 스윕만으로도 더 광범위한 최적화 방법과 유사한 결과를 얻을 수 있습니다. 이 한계를 넘어서려고 시도하면 추가적인 개선은 이루어지지 않고 오히려 과적합이 발생합니다.
Safe deployment of Large Language Model (LLM) agents in autonomous settings requires reliable oversight mechanisms. A central challenge is detecting scheming, where agents covertly pursue misaligned goals. One approach to mitigating such risks is LLM-based monitoring: using language models to examine agent behaviors for suspicious actions. We study constitutional black-box monitors: prompted classifiers that detect scheming using only externally observable inputs and outputs, optimized on synthetic data generated from natural-language behavior specifications. We introduce two pipelines for generating synthetic agent trajectories, STRIDE (iterative refinement) and Gloom (agent-environment simulation), from which we generate 1,000 samples each. We optimize frontier LLM monitors on these datasets via prompt sweeps, human refinement, and automated prompt optimization, and evaluate performance on 7,500 held-out trajectories from ControlArena, a suite of grounded environments where agents operate in more realistic contexts. Our results demonstrate that monitors selected purely on synthetic data can generalize to more realistic environments, capturing a meaningful scheming signal. However, we find that performance saturates quickly in our setting, with simple prompt sweeps matching the results of more extensive optimization. Pushing beyond this limit yields no further improvements and instead leads to overfitting.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.