정적 벤치마크의 한계를 넘어: 페르소나 기반 시뮬레이션을 통한 유해 콘텐츠 생성 및 강력한 평가
Beyond Static Benchmarks: Synthesizing Harmful Content via Persona-based Simulation for Robust Evaluation
유해 콘텐츠 탐지 시스템의 정적 벤치마크는 확장성 및 다양성 측면에서 한계를 가지며, 웹 규모의 사전 훈련 코퍼스에서 발생하는 오염 문제에도 영향을 받을 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 페르소나 기반의 대규모 언어 모델(LLM) 에이전트를 활용하여 유해 콘텐츠를 생성하는 프레임워크를 제안합니다. 우리의 접근 방식은 인구 통계학적 정보와 주제적 관심사를 결합하여 상황별 유해 전략을 통합함으로써 2차원 사용자 페르소나를 구성하고, 이를 통해 다양하고 맥락에 맞는 유해 상호 작용을 시뮬레이션합니다. 우리는 프레임워크를 유해성, 난이도, 다양성이라는 세 가지 측면에서 평가했습니다. 인간 평가 및 LLM 기반 평가 모두에서, 우리의 프레임워크가 높은 수준의 유해 콘텐츠 생성 성공률을 달성한다는 것을 확인했습니다. 여러 탐지 시스템에 대한 실험 결과, 우리의 합성 시나리오가 기존 벤치마크의 시나리오보다 탐지하기 더 어렵다는 것을 보여줍니다. 또한, 다각적인 분석을 통해 우리의 접근 방식이 인간이 선별한 데이터셋과 비교할 수 있는 수준의 언어적 및 주제적 다양성을 달성한다는 것을 확인했으며, 이는 우리의 프레임워크가 유해 콘텐츠 탐지 시스템의 강력한 스트레스 테스트를 위한 효과적인 도구임을 입증합니다.
Static benchmarks for harmful content detection face limitations in scalability and diversity, and may also be affected by contamination from web-scale pre-training corpora. To address these issues, we propose a framework for synthesizing harmful content, leveraging persona-guided large language model (LLM) agents. Our approach constructs two-dimensional user personas by integrating demographic identities and topical interests with situational harmful strategies, enabling the simulation of diverse and contextually grounded harmful interactions. We evaluate the framework along three dimensions: harmfulness, challenge level, and diversity. Both human and LLM-based evaluations confirm that our framework achieves a high harmful generation success rate. Experiments across multiple detection systems reveal that our synthetic scenarios are more challenging to detect than those in existing benchmarks. Furthermore, a multi-faceted analysis confirms that our approach achieves linguistic and topical diversity comparable to human-curated datasets, establishing our framework as an effective tool for robust stress-testing of harmful content detection systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.