신뢰를 감시로: 사용자 신뢰와 AI 개발자 행동의 진화적 역학
Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour
인공지능(AI) 시스템의 능력과 보급이 증가함에 따라 AI 안전에 대한 우려가 점점 커지고 있습니다. 기존의 AI 거버넌스 진화 모델은 주로 안전한 개발 및 효과적인 규제를 위한 인센티브를 연구해 왔으며, 일반적으로 사용자의 신뢰를 일회적인 채택 결정으로 간주하기보다는 반복적인 상호작용을 통해 동적으로 변화하는 과정으로 보지 않습니다. 본 연구에서는 사용자가 AI 개발자와의 반복적이고 비대칭적인 상호작용에서, AI의 행동을 확인하는 것이 비용이 든다는 점을 고려하여 신뢰를 '감시 감소'로 모델링합니다. 진화 게임 이론을 사용하여 사용자의 신뢰 전략과 개발자의 안전(규정 준수) 또는 위험(규정 미준수) AI 선택이 다양한 수준의 감시 비용과 제도적 환경 하에서 어떻게 함께 진화하는지 연구합니다. 무한 개체군 복제 분석을 확률적 유한 개체군 동역학 및 강화 학습(Q-학습) 시뮬레이션으로 보완했습니다. 다양한 접근 방식을 통해 세 가지 강력한 장기적 체제를 발견했습니다. 첫째, 위험한 개발로 인해 채택이 전혀 이루어지지 않는 경우, 둘째, 위험하지만 널리 채택되는 시스템, 셋째, 안전하고 널리 채택되는 시스템입니다. 세 번째 경우만이 바람직하며, 이는 위험한 행동에 대한 처벌이 안전을 유지하는 추가 비용보다 클 때, 그리고 사용자가 최소한 가끔 감시를 할 여력이 있을 때 발생합니다. 본 연구 결과는 투명성, 저렴한 감시, 의미 있는 제재를 강조하는 거버넌스 제안을 뒷받침하며, 규제만으로는 충분하지 않고, 맹목적인 사용자 신뢰 또한 안전하지 않거나 낮은 채택률로 이어지는 진화적 변화를 막기에 충분하지 않음을 보여줍니다.
AI safety is an increasingly urgent concern as the capabilities and adoption of AI systems grow. Existing evolutionary models of AI governance have primarily examined incentives for safe development and effective regulation, typically representing users' trust as a one-shot adoption choice rather than as a dynamic, evolving process shaped by repeated interactions. We instead model trust as reduced monitoring in a repeated, asymmetric interaction between users and AI developers, where checking AI behaviour is costly. Using evolutionary game theory, we study how user trust strategies and developer choices between safe (compliant) and unsafe (non-compliant) AI co-evolve under different levels of monitoring cost and institutional regimes. We complement the infinite-population replicator analysis with stochastic finite-population dynamics and reinforcement learning (Q-learning) simulations. Across these approaches, we find three robust long-run regimes: no adoption with unsafe development, unsafe but widely adopted systems, and safe systems that are widely adopted. Only the last is desirable, and it arises when penalties for unsafe behaviour exceed the extra cost of safety and users can still afford to monitor at least occasionally. Our results formally support governance proposals that emphasise transparency, low-cost monitoring, and meaningful sanctions, and they show that neither regulation alone nor blind user trust is sufficient to prevent evolutionary drift towards unsafe or low-adoption outcomes.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.