PolicySim: LLM 기반 에이전트 사회 시뮬레이션 샌드박스 - 선제적 정책 최적화를 위한 도구
PolicySim: An LLM-Based Agent Social Simulation Sandbox for Proactive Policy Optimization
소셜 플랫폼은 정보 교환의 핵심 허브로서, 사용자 행동과 플랫폼 개입이 상호 작용하며 의견 형성에 영향을 미칩니다. 그러나 추천 및 콘텐츠 필터링과 같은 개입 정책은 의도치 않게 여론의 폐쇄성과 양극화를 심화시켜 상당한 사회적 위험을 초래할 수 있습니다. 따라서 이러한 정책의 영향을 사전에 평가하는 것이 매우 중요합니다. 기존의 접근 방식은 주로 온라인 A/B 테스트에 의존하며, 이는 정책 시행 후에 위험을 식별하게 되어 위험 식별이 지연되고 비용이 많이 듭니다. LLM 기반 사회 시뮬레이션은 사전 배포를 위한 유망한 대안을 제공하지만, 현재 방법은 플랫폼 개입을 현실적으로 모델링하고 플랫폼 피드백을 통합하는 데 한계가 있습니다. 이러한 격차를 해소하는 것은 플랫폼 정책을 평가하고 최적화하기 위한 실질적인 프레임워크를 구축하는 데 필수적입니다. 이에, 우리는 선제적인 개입 정책 평가 및 최적화를 위한 LLM 기반 사회 시뮬레이션 샌드박스인 PolicySim을 제안합니다. PolicySim은 사용자 행동과 플랫폼 개입 간의 상호 작용을 모델링하며, 주요 구성 요소는 다음과 같습니다. (1) 지도 학습(SFT) 및 직접 선호도 최적화(DPO)를 통해 플랫폼별 행동의 현실성을 달성하도록 개선된 사용자 에이전트 모듈, (2) 동적 네트워크 구조를 반영하기 위해 메시지 전달을 사용하는 컨텍스트 밴디트를 활용하는 적응형 개입 모듈. 실험 결과, PolicySim은 마이크로 및 매크로 수준에서 플랫폼 생태계를 정확하게 시뮬레이션하고 효과적인 개입 정책을 지원할 수 있음을 보여줍니다.
Social platforms serve as central hubs for information exchange, where user behaviors and platform interventions jointly shape opinions. However, intervention policies like recommendation and content filtering, can unintentionally amplify echo chambers and polarization, posing significant societal risks. Proactively evaluating the impact of such policies is therefore crucial. Existing approaches primarily rely on reactive online A/B testing, where risks are identified only after deployment, making risk identification delayed and costly. LLM-based social simulations offer a promising pre-deployment alternative, but current methods fall short in realistically modeling platform interventions and incorporating feedback from the platform. Bridging these gaps is essential for building actionable frameworks to assess and optimize platform policies. To this end, we propose PolicySim, an LLM-based social simulation sandbox for the proactive assessment and optimization of intervention policies. PolicySim models the bidirectional dynamics between user behavior and platform interventions through two key components: (1) a user agent module refined via supervised fine-tuning (SFT) and direct preference optimization (DPO) to achieve platform-specific behavioral realism; and (2) an adaptive intervention module that employs a contextual bandit with message passing to capture dynamic network structures. Experiments show that PolicySim can accurately simulate platform ecosystems at both micro and macro levels and support effective intervention policy.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.