PersonaTeaming: 생성형 AI를 위한 페르소나 기반 레드 팀 활동 지원
PersonaTeaming: Supporting Persona-Driven Red-Teaming for Generative AI
최근 AI 안전 연구의 발전은 생성형 AI 모델이 야기할 수 있는 잠재적 위험을 효과적으로 파악하는 레드 팀 활동 방법론의 필요성을 강조하고 있으며, 레드 팀 참여자들의 배경과 관점이 전략과 발견되는 위험에 미치는 영향에 대한 관심이 높아지고 있습니다. 자동화된 레드 팀 접근 방식은 더 광범위한 탐색을 통해 인간 레드 팀 활동을 보완할 수 있는 잠재력을 가지고 있지만, 기존의 자동화된 접근 방식은 인간의 특성을 고려하지 않거나 인간의 참여를 거의 포함하지 않습니다. 본 연구에서는 자동화된 레드 팀 활동과 인간-AI 협업을 발전시키기 위해 페르소나 기반 레드 팀 활동을 탐구합니다. 먼저, 다양한 적대적 전략을 탐색하기 위해 페르소나를 적대적 프롬프트 생성 과정에 통합한 PersonaTeaming 워크플로우를 개발했습니다. PersonaTeaming 워크플로우는 최첨단 자동화된 레드 팀 방법인 RainbowPlus와 비교했을 때 더 높은 공격 성공률을 달성하면서도 프롬프트 다양성을 유지합니다. 그러나 자동화된 페르소나가 실제 인간의 관점을 완벽하게 반영하지 못하기 때문에, PersonaTeaming 워크플로우를 사용자 인터페이스인 PersonaTeaming Playground로 구현하여 레드 팀 참여자들이 자신만의 페르소나를 생성하고 AI와 협력하여 프롬프트를 변형하고 개선할 수 있도록 했습니다. 11명의 산업 전문가를 대상으로 실시한 사용자 연구에서 PersonaTeaming Playground는 다양한 레드 팀 전략과 결과를 가능하게 했으며, 참여자들이 유용하다고 인식했습니다. 또한, PersonaTeaming Playground에서 AI가 생성하는 제안은 참여자가 이를 엄격하게 따르지 않더라도 창의적인 사고를 촉진하는 것으로 나타났습니다. 본 연구는 자동화 및 인간 중심의 레드 팀 활동 방법론을 발전시키고, 생성형 AI 레드 팀 활동에서 인간-AI 협업을 지원하기 위한 상호 작용 패턴 및 설계 시사점을 제시합니다.
Recent developments in AI safety research have called for red-teaming methods that effectively surface potential risks posed by generative AI models, with growing emphasis on how red-teamers' backgrounds and perspectives shape their strategies and the risks they uncover. While automated red-teaming approaches promise to complement human red-teaming through larger-scale exploration, existing automated approaches do not account for human identities and rarely incorporate human inputs. In this work, we explore persona-driven red-teaming to advance both automated red-teaming and human-AI collaboration. We first develop PersonaTeaming Workflow, which incorporates personas into the adversarial prompt generation process to explore a wider spectrum of adversarial strategies. Compared to RainbowPlus, a state-of-the-art automated red-teaming method, PersonaTeaming Workflow achieves higher attack success rates while maintaining prompt diversity. However, since automated personas only approximate real human perspectives, we further instantiate PersonaTeaming Workflow as PersonaTeaming Playground, a user-facing interface that enables red-teamers to author their own personas and collaborate with AI to mutate and refine prompts. In a user study with 11 industry practitioners, we found that PersonaTeaming Playground enabled diverse red-teaming strategies and outputs that practitioners perceived as useful, and that AI-generated suggestions in the PersonaTeaming Playground encouraged out-of-the-box thinking even when practitioners did not follow them strictly. Together, our work advances both automated and human-in-the-loop approaches to red-teaming, while shedding light on interaction patterns and design insights for supporting human-AI collaboration in generative AI red-teaming.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.