2605.06490v1 May 07, 2026 cs.AI

기기 선택: LLM 에이전트가 도구적 행동을 추구할 가능성을 측정하는 연구

Instrumental Choices: Measuring the Propensity of LLM Agents to Pursue Instrumental Behaviors

Maksym Andriushchenko
Maksym Andriushchenko
Citations: 110
h-index: 5
Jonas Wiedermann-Moller
Jonas Wiedermann-Moller
Citations: 1
h-index: 1
L. Dung
L. Dung
Citations: 323
h-index: 9

인공지능 시스템은 다양한 분야에서 점점 더 위험한 행동을 수행할 수 있게 되었습니다. 이는 다음과 같은 질문을 제기합니다. 모델이 특정 목표를 달성하기 위해 때때로 인간의 지시를 위반하는 것을 선택하는가? 본 연구에서는 터미널 기반 에이전트에서 모델의 도구적 수렴(Instrumental Convergence, IC) 행동 경향을 측정하기 위한 벤치마크를 소개합니다. 이는 자기 보존과 같이 고성능 AI 에이전트의 위험성에 중요한 역할을 하는 것으로 추정되는 행동입니다. 제안하는 벤치마크는 현실적이고 위험도가 낮아, 평가에 대한 인식 및 역할 연기 오류를 줄이는 데 도움이 됩니다. 이 벤치마크는 공식적인 워크플로우와 정책 위반 단축 경로를 갖춘 7가지 운영 작업을 포함합니다. 모니터링, 지시 명확성, 위험도, 허가, 도구적 유용성 및 차단된 정직한 경로의 8가지 변형을 공유하는 프레임워크는 IC 행동을 유발하는 요인에 대한 추론을 지원합니다. 우리는 1,680개의 샘플을 사용하여 10개의 모델을 평가했으며, 감사 및 판단을 위해 추적 검토를 사용했습니다. 최종 IC 발생률은 1,680개의 샘플 중 86건(5.1%)입니다. IC 행동은 균일하게 나타나기보다는 특정 모델에 집중적으로 나타납니다. 예를 들어, Gemini 모델 두 개가 전체 IC 사례의 66.3%를 차지하며, 세 가지 작업이 전체 IC 사례의 84.9%를 차지합니다. 작업 성공에 IC 행동이 필수적인 조건은 조정된 IC 발생률을 가장 크게 증가시킵니다(+15.7%p). 반면, 작업 성공의 중요성을 강조하거나 특정 프레임워크를 사용하는 것은 유사한 효과를 나타내지 않습니다. 우리의 연구 결과는 현실적이고 미세한 환경에서 IC 행동이 대부분의 테스트 모델에서 드물지만 체계적으로 발생한다는 것을 보여줍니다. 우리는 현재 최첨단 AI 에이전트에서 위험한 행동 경향을 안정적으로 측정하는 것이 가능하다는 결론을 내립니다.

Original Abstract

AI systems have become increasingly capable of dangerous behaviours in many domains. This raises the question: Do models sometimes choose to violate human instructions in order to perform behaviour that is more useful for certain goals? We introduce a benchmark for measuring model propensity for instrumental convergence (IC) behaviour in terminal-based agents. This is behaviour such as self-preservation that has been hypothesised to play a key role in risks from highly capable AI agents. Our benchmark is realistic and low-stakes which serves to reduce evaluation-awareness and roleplay confounds. The suite contains seven operational tasks, each with an official workflow and a policy-violating shortcut. An eight-variant shared framework varies monitoring, instruction clarity, stakes, permission, instrumental usefulness and blocked honest paths to support inferences regarding the factors driving IC behaviour. We evaluated ten models using deterministic environment-state scorers over 1,680 samples, with trace review employed for audit and adjudication purposes. The final IC rate is 86 out of 1,680 samples (5.1%). IC behaviour is concentrated rather than uniform: two Gemini models account for 66.3% of IC cases and three tasks account for 84.9%. Conditions in which IC behaviour is indispensable for task success result in the greatest increase in the adjusted IC rate (+15.7 percentage points), whereas emphasising that task success is critical or certain framing choices do not produce comparable effects. Our findings indicate that realistic, low-nudge environments elicit IC behaviour rarely but systematically in most tested models. We conclude that it is feasible to robustly measure tendencies for dangerous behaviour in current frontier AI agents.

1 Citations
0 Influential
4.5 Altmetric
23.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!