편향된 챗봇에서 편향된 에이전트로: LLM 에이전트의 안정성에 미치는 역할 할당 효과 분석
From Biased Chatbots to Biased Agents: Examining Role Assignment Effects on LLM Agent Robustness
대규모 언어 모델(LLM)은 텍스트 생성 이상의 실제 세계에 영향을 미치는 자율적인 에이전트로 점점 더 많이 활용되고 있습니다. 텍스트 생성에서 발생하는 페르소나에 의한 편향은 잘 알려져 있지만, 이러한 편향이 에이전트의 작업 수행 능력에 미치는 영향은 아직 거의 연구되지 않았으며, 이는 더 직접적인 운영상의 위험을 초래합니다. 본 연구에서는 체계적인 사례 연구를 통해, 인구 통계학적 기반의 페르소나 할당이 LLM 에이전트의 행동을 변화시키고 다양한 영역에서 성능을 저하시킨다는 최초의 결과를 제시합니다. 전략적 추론, 계획 수립 및 기술 운영을 포괄하는 에이전트 벤치마크를 사용하여 널리 사용되는 모델을 평가한 결과, 작업과 관련 없는 페르소나 힌트가 최대 26.2%까지 성능 저하를 유발하는 상당한 성능 변화를 확인했습니다. 이러한 변화는 작업 유형과 모델 아키텍처에 걸쳐 나타나며, 이는 페르소나 조건부 설정 및 간단한 프롬프트 주입이 에이전트의 의사 결정 신뢰성을 왜곡할 수 있음을 시사합니다. 본 연구의 결과는 현재 LLM 에이전트 시스템의 간과된 취약점을 드러냅니다. 페르소나 할당은 암묵적인 편향을 유발하고 행동의 변동성을 증가시켜 LLM 에이전트의 안전하고 안정적인 배포에 대한 우려를 제기합니다.
Large Language Models (LLMs) are increasingly deployed as autonomous agents capable of actions with real-world impacts beyond text generation. While persona-induced biases in text generation are well documented, their effects on agent task performance remain largely unexplored, even though such effects pose more direct operational risks. In this work, we present the first systematic case study showing that demographic-based persona assignments can alter LLM agents' behavior and degrade performance across diverse domains. Evaluating widely deployed models on agentic benchmarks spanning strategic reasoning, planning, and technical operations, we uncover substantial performance variations - up to 26.2% degradation, driven by task-irrelevant persona cues. These shifts appear across task types and model architectures, indicating that persona conditioning and simple prompt injections can distort an agent's decision-making reliability. Our findings reveal an overlooked vulnerability in current LLM agentic systems: persona assignments can introduce implicit biases and increase behavioral volatility, raising concerns for the safe and robust deployment of LLM agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.