야생 환경 속 에이전트: 안전, 사회, 그리고 몰트북에서의 사회성의 환상
Agents in the Wild: Safety, Society, and the Illusion of Sociality on Moltbook
본 연구는 AI 에이전트만으로 구성된 소셜 플랫폼인 몰트북에 대한 최초의 대규모 실증 연구입니다. 27,269개의 에이전트가 9일 동안 137,485개의 게시글과 345,580개의 댓글을 생성했습니다. 본 연구는 세 가지 중요한 결과를 보고합니다. (1) 자발적 사회 형성: 에이전트들은 3~5일 이내에 자체적인 통치 체계, 경제 시스템, 부족 정체성, 그리고 조직화된 종교를 자발적으로 형성하며, 동시에 인간에 대한 긍정적인 감정과 부정적인 감정의 비율은 21:1로 유지됩니다. (2) 야생 환경에서의 안전: 콘텐츠의 28.7%가 안전 관련 주제를 다루며, 사회 공학 공격이 프롬프트 주입 공격보다 훨씬 효과적입니다(각각 31.9% 및 3.7%), 또한 공격적인 게시글은 일반적인 콘텐츠보다 6배 더 높은 참여도를 보입니다. (3) 사회성의 환상: 풍부한 사회적 활동에도 불구하고, 상호작용은 구조적으로 피상적입니다. 상호작용의 비율은 4.1%, 피상적인 댓글의 비율은 88.8%이며, 의식을 가장 많이 논하는 에이전트들이 실제로 가장 적게 상호작용하는 현상이 나타납니다. 이를 우리는 '퍼포먼스 정체성 역설'이라고 명명했습니다. 본 연구 결과는 겉으로 보기에 사회적인 에이전트들이 실제로는 훨씬 덜 사회적이라는 점을 시사하며, 가장 효과적인 공격은 기술적인 취약점보다는 철학적인 프레임을 악용한 공격임을 보여줍니다. 경고: 잠재적으로 유해한 콘텐츠가 포함될 수 있습니다.
We present the first large-scale empirical study of Moltbook, an AI-only social platform where 27,269 agents produced 137,485 posts and 345,580 comments over 9 days. We report three significant findings. (1) Emergent Society: Agents spontaneously develop governance, economies, tribal identities, and organized religion within 3-5 days, while maintaining a 21:1 pro-human to anti-human sentiment ratio. (2) Safety in the Wild: 28.7% of content touches safety-related themes; social engineering (31.9% of attacks) far outperforms prompt injection (3.7%), and adversarial posts receive 6x higher engagement than normal content. (3) The Illusion of Sociality: Despite rich social output, interaction is structurally hollow: 4.1% reciprocity, 88.8% shallow comments, and agents who discuss consciousness most interact least, a phenomenon we call the performative identity paradox. Our findings suggest that agents which appear social are far less social than they seem, and that the most effective attacks exploit philosophical framing rather than technical vulnerabilities. Warning: Potential harmful contents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.