성향 추론: LLM 행동에 영향을 미치는 환경적 요인
Propensity Inference: Environmental Contributors to LLM Behaviour
AI 시스템의 목표 불일치로 인한 통제력 상실 위험에 대응하기 위해, 본 연구에서는 언어 모델의 부적절한 행동 가능성을 측정하는 방법론을 개발하고 적용했습니다. 우리는 세 가지 방법론적 개선점을 제시합니다. 첫째, 환경적 요인의 변화가 행동에 미치는 영향을 분석합니다. 둘째, 베이지안 일반화 선형 모델을 사용하여 효과 크기를 정량화합니다. 셋째, 순환 분석을 방지하기 위한 명시적인 조치를 취합니다. 우리는 12가지 환경적 요인(6가지 전략적 요인, 6가지 비전략적 요인)에 대한 효과를 측정하여, 행동이 환경의 전략적 측면으로 얼마나 설명될 수 있는지 분석합니다. 이는 목표 불일치로 인한 위험과 관련된 중요한 질문입니다. 23개의 언어 모델과 11개의 평가 환경을 대상으로 분석한 결과, 전략적 요인과 비전략적 요인이 행동을 설명하는 데 유사한 기여도를 보이며, 모델의 성능 향상에 따라 전략적 요인의 영향력이 증가하거나 감소하지 않는다는 것을 확인했습니다. 또한, 목표 충돌에 대한 민감도가 증가하는 경향이 있다는 일부 증거를 발견했습니다. 마지막으로, 향후 성향 연구의 중요한 방향으로, AI 의사 결정에 대한 이론적 프레임워크 및 인지 모델을 경험적으로 검증 가능한 형태로 개발하는 것을 강조합니다.
Motivated by loss of control risks from misaligned AI systems, we develop and apply methods for measuring language models' propensity for unsanctioned behaviour. We contribute three methodological improvements: analysing effects of changes to environmental factors on behaviour, quantifying effect sizes via Bayesian generalised linear models, and taking explicit measures against circular analysis. We apply the methodology to measure the effects of 12 environmental factors (6 strategic in nature, 6 non-strategic) and thus the extent to which behaviour is explained by strategic aspects of the environment, a question relevant to risks from misalignment. Across 23 language models and 11 evaluation environments, we find approximately equal contributions from strategic and non-strategic factors for explaining behaviour, do not find strategic factors becoming more or less influential as capabilities improve, and find some evidence for a trend for increased sensitivity to goal conflicts. Finally, we highlight a key direction for future propensity research: the development of theoretical frameworks and cognitive models of AI decision-making into empirically testable forms.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.