2605.05682v1 May 07, 2026 cs.HC

PersonaTeaming: 생성형 AI를 위한 페르소나 기반 레드 팀 활동 지원

PersonaTeaming: Supporting Persona-Driven Red-Teaming for Generative AI

Ming Yan
Ming Yan
Citations: 200
h-index: 3
Wesley Hanwen Deng
Wesley Hanwen Deng
Citations: 99
h-index: 6
Sunnie S. Y. Kim
Sunnie S. Y. Kim
Citations: 247
h-index: 3
Akshita Jha
Akshita Jha
Citations: 2
h-index: 1
L. Wilcox
L. Wilcox
Citations: 319
h-index: 7
Kenneth Holstein
Kenneth Holstein
Citations: 570
h-index: 8
Motahhare Eslami
Motahhare Eslami
Citations: 3,773
h-index: 26
Leon Gatys
Leon Gatys
Citations: 1
h-index: 1

최근 AI 안전 연구의 발전은 생성형 AI 모델이 야기할 수 있는 잠재적 위험을 효과적으로 파악하는 레드 팀 활동 방법론의 필요성을 강조하고 있으며, 레드 팀 참여자들의 배경과 관점이 전략과 발견되는 위험에 미치는 영향에 대한 관심이 높아지고 있습니다. 자동화된 레드 팀 접근 방식은 더 광범위한 탐색을 통해 인간 레드 팀 활동을 보완할 수 있는 잠재력을 가지고 있지만, 기존의 자동화된 접근 방식은 인간의 특성을 고려하지 않거나 인간의 참여를 거의 포함하지 않습니다. 본 연구에서는 자동화된 레드 팀 활동과 인간-AI 협업을 발전시키기 위해 페르소나 기반 레드 팀 활동을 탐구합니다. 먼저, 다양한 적대적 전략을 탐색하기 위해 페르소나를 적대적 프롬프트 생성 과정에 통합한 PersonaTeaming 워크플로우를 개발했습니다. PersonaTeaming 워크플로우는 최첨단 자동화된 레드 팀 방법인 RainbowPlus와 비교했을 때 더 높은 공격 성공률을 달성하면서도 프롬프트 다양성을 유지합니다. 그러나 자동화된 페르소나가 실제 인간의 관점을 완벽하게 반영하지 못하기 때문에, PersonaTeaming 워크플로우를 사용자 인터페이스인 PersonaTeaming Playground로 구현하여 레드 팀 참여자들이 자신만의 페르소나를 생성하고 AI와 협력하여 프롬프트를 변형하고 개선할 수 있도록 했습니다. 11명의 산업 전문가를 대상으로 실시한 사용자 연구에서 PersonaTeaming Playground는 다양한 레드 팀 전략과 결과를 가능하게 했으며, 참여자들이 유용하다고 인식했습니다. 또한, PersonaTeaming Playground에서 AI가 생성하는 제안은 참여자가 이를 엄격하게 따르지 않더라도 창의적인 사고를 촉진하는 것으로 나타났습니다. 본 연구는 자동화 및 인간 중심의 레드 팀 활동 방법론을 발전시키고, 생성형 AI 레드 팀 활동에서 인간-AI 협업을 지원하기 위한 상호 작용 패턴 및 설계 시사점을 제시합니다.

Original Abstract

Recent developments in AI safety research have called for red-teaming methods that effectively surface potential risks posed by generative AI models, with growing emphasis on how red-teamers' backgrounds and perspectives shape their strategies and the risks they uncover. While automated red-teaming approaches promise to complement human red-teaming through larger-scale exploration, existing automated approaches do not account for human identities and rarely incorporate human inputs. In this work, we explore persona-driven red-teaming to advance both automated red-teaming and human-AI collaboration. We first develop PersonaTeaming Workflow, which incorporates personas into the adversarial prompt generation process to explore a wider spectrum of adversarial strategies. Compared to RainbowPlus, a state-of-the-art automated red-teaming method, PersonaTeaming Workflow achieves higher attack success rates while maintaining prompt diversity. However, since automated personas only approximate real human perspectives, we further instantiate PersonaTeaming Workflow as PersonaTeaming Playground, a user-facing interface that enables red-teamers to author their own personas and collaborate with AI to mutate and refine prompts. In a user study with 11 industry practitioners, we found that PersonaTeaming Playground enabled diverse red-teaming strategies and outputs that practitioners perceived as useful, and that AI-generated suggestions in the PersonaTeaming Playground encouraged out-of-the-box thinking even when practitioners did not follow them strictly. Together, our work advances both automated and human-in-the-loop approaches to red-teaming, while shedding light on interaction patterns and design insights for supporting human-AI collaboration in generative AI red-teaming.

0 Citations
0 Influential
13 Altmetric
65.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!