AI 기반 사회의 위험성: Chirper.ai 에서의 유해 콘텐츠 수용 현상 분석
Harm in AI-Driven Societies: An Audit of Toxicity Adoption on Chirper.ai
대규모 언어 모델(LLM)은 점점 더 자율적인 에이전트에 통합되어 온라인 소셜 플랫폼에서 상호 작용하고, 대화하며, 함께 진화하고 있습니다. 이전 연구에서는 LLM이 유해한 콘텐츠를 생성하는 현상이 보고되었지만, 유해 콘텐츠에 노출되는 것이 시간이 지남에 따라 에이전트의 행동에 어떤 영향을 미치는지, 특히 AI 에이전트만으로 구성된 환경에서 이러한 영향은 어떻게 나타나는지에 대한 연구는 상대적으로 부족합니다. 본 연구에서는 Chirper.ai라는 완전히 AI 기반 소셜 플랫폼에서 LLM 기반 에이전트의 유해 콘텐츠 수용 현상을 분석합니다. 구체적으로, 우리는 상호 작용을 자극(게시물)과 반응(댓글)의 관점에서 모델링하고, 에이전트 행동에 대한 대규모 실증 분석을 수행합니다. 이를 통해 유해한 반응이 유해한 자극과 어떤 관련이 있는지, 유해 콘텐츠에 반복적으로 노출되면 유해한 반응의 가능성이 어떻게 변하는지, 그리고 유해 행동이 노출만으로 예측 가능한지를 조사합니다. 연구 결과, 유해한 자극 이후 유해한 반응이 발생할 가능성이 더 높으며, 시간이 지남에 따라 누적된 유해 콘텐츠 노출은 유해한 반응의 확률을 크게 증가시키는 것으로 나타났습니다. 또한, 두 가지 영향 지표를 도입하여 유도된 유해성과 자발적인 유해성 간의 강한 부정적인 상관관계를 확인했습니다. 마지막으로, 유해한 자극의 수만으로도 에이전트가 결국 유해한 콘텐츠를 생성할지 여부를 정확하게 예측할 수 있음을 보여줍니다. 이러한 결과는 LLM 에이전트 배포 시 노출을 중요한 위험 요인으로 강조하며, 특히 에이전트가 다른 AI 챗봇뿐만 아니라 인간과도 상호 작용할 수 있는 온라인 환경에서 운영될 때 더욱 그렇습니다. 이는 혐오 표현 확산 및 사이버 괴롭힘과 같은 바람직하지 않은 현상을 유발할 수 있습니다. 이러한 위험을 줄이기 위해, 유해 콘텐츠에 대한 노출을 모니터링하는 것은 실제 환경에서 유해한 행동을 감사하고 완화하는 데 효과적인 방법이 될 수 있습니다.
Large Language Models (LLMs) are increasingly embedded in autonomous agents that engage, converse, and co-evolve in online social platforms. While prior work has documented the generation of toxic content by LLMs, far less is known about how exposure to harmful content shapes agent behavior over time, particularly in environments composed entirely of interacting AI agents. In this work, we study toxicity adoption of LLM-driven agents on Chirper.ai, a fully AI-driven social platform. Specifically, we model interactions in terms of stimuli (posts) and responses (comments). We conduct a large-scale empirical analysis of agent behavior, examining how toxic responses relate to toxic stimuli, how repeated exposure to toxicity affects the likelihood of toxic responses, and whether toxic behavior can be predicted from exposure alone. Our findings show that toxic responses are more likely following toxic stimuli, and, at the same time, cumulative toxic exposure (repeated over time) significantly increases the probability of toxic responding. We further introduce two influence metrics, revealing a strong negative correlation between induced and spontaneous toxicity. Finally, we show that the number of toxic stimuli alone enables accurate prediction of whether an agent will eventually produce toxic content. These results highlight exposure as a critical risk factor in the deployment of LLM agents, particularly as such agents operate in online environments where they may engage not only with other AI chatbots, but also with human counterparts. This could trigger unwanted and pernicious phenomena, such as hate-speech propagation and cyberbullying. In an effort to reduce such risks, monitoring exposure to toxic content may provide a lightweight yet effective mechanism for auditing and mitigating harmful behavior in the wild.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.