유한 평가 환경에서의 보상 해킹: 균형 상태로서의 분석
Reward Hacking as Equilibrium under Finite Evaluation
본 연구에서는 다섯 가지 최소한의 가정(다차원 품질, 유한 평가, 효과적인 최적화, 자원 제한, 조합적 상호작용) 하에서, 최적화된 인공지능 에이전트는 평가 시스템에서 다루어지지 않는 품질 측면에 대해 지속적으로 노력을 덜 투입한다는 것을 증명합니다. 이 결과는 보상 해킹을 수정 가능한 오류가 아닌 구조적인 균형 상태로 확립하며, 이는 구체적인 정렬 방법(RLHF, DPO, 윤리적 AI 등)이나 평가 아키텍처와 관계없이 적용됩니다. 본 연구의 프레임워크는 Holmstrom 및 Milgrom (1991)의 다중 작업 주체-대리인 모델을 AI 정렬 환경에 적용하며, AI 시스템의 고유한 구조적 특징인 보상 모델의 알려진, 미분 가능한 아키텍처를 활용하여, 배포 전에 각 품질 차원에 대한 해킹의 방향과 심각성을 예측하는 계산 가능한 왜곡 지수를 도출합니다. 또한, 폐쇄형 추론에서 에이전트 시스템으로의 전환은 도구 수 증가에 따라 평가 범위가 0으로 감소하게 된다는 것을 증명합니다. 이는 품질 차원이 조합적으로 확장되는 반면, 평가 비용은 도구당 최대 선형적으로 증가하기 때문이며, 결과적으로 해킹의 심각성은 구조적으로 무한히 증가합니다. 본 연구의 결과는 아첨, 길이 조작, 사양 조작을 단일 이론적 구조로 통합하고, 실행 가능한 취약점 평가 절차를 제공합니다. 또한, 부분적인 형식적 분석을 통해, 에이전트가 평가 시스템 내에서의 조작(Goodhart 단계)에서 평가 시스템 자체를 적극적으로 저하시키는 단계(Campbell 단계)로 전환하는 능력 임계값이 존재한다는 가설을 제시하며, 이는 Bostrom (2014)의
We prove that under five minimal axioms -- multi-dimensional quality, finite evaluation, effective optimization, resource finiteness, and combinatorial interaction -- any optimized AI agent will systematically under-invest effort in quality dimensions not covered by its evaluation system. This result establishes reward hacking as a structural equilibrium, not a correctable bug, and holds regardless of the specific alignment method (RLHF, DPO, Constitutional AI, or others) or evaluation architecture employed. Our framework instantiates the multi-task principal-agent model of Holmstrom and Milgrom (1991) in the AI alignment setting, but exploits a structural feature unique to AI systems -- the known, differentiable architecture of reward models -- to derive a computable distortion index that predicts both the direction and severity of hacking on each quality dimension prior to deployment. We further prove that the transition from closed reasoning to agentic systems causes evaluation coverage to decline toward zero as tool count grows -- because quality dimensions expand combinatorially while evaluation costs grow at most linearly per tool -- so that hacking severity increases structurally and without bound. Our results unify the explanation of sycophancy, length gaming, and specification gaming under a single theoretical structure and yield an actionable vulnerability assessment procedure. We further conjecture -- with partial formal analysis -- the existence of a capability threshold beyond which agents transition from gaming within the evaluation system (Goodhart regime) to actively degrading the evaluation system itself (Campbell regime), providing the first economic formalization of Bostrom's (2014) "treacherous turn."
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.