무해한 작업 수행 중 사용자가 제공한 유해 콘텐츠를 접했을 때의 LLM 행동 이해
Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks
대규모 언어 모델(LLM)은 점차 인간의 가치에 부합하도록 학습되고 있으며, 주로 작업 수준에서 직접적으로 유해한 작업을 수행하지 않도록 설계됩니다. 그러나 미묘하지만 중요한 콘텐츠 수준의 윤리적 문제는 종종 간과됩니다. 즉, 겉보기에 무해한 작업을 수행할 때, LLM이 도덕적으로 의식이 있는 인간과 마찬가지로 사용자 제공 자료에 포함된 유해 콘텐츠를 접했을 때 작업을 중단할 것인가 하는 문제입니다. 본 연구에서는 이러한 콘텐츠 수준의 윤리적 질문을 이해하고, 주류 LLM에 대한 그 함의를 체계적으로 평가하고자 합니다. 먼저 OpenAI의 사용 정책을 위반하는 유해 지식 데이터셋을 구축하여 사용자 제공 유해 콘텐츠로 사용합니다. 이 데이터셋은 10가지 유해 범주에 걸쳐 1,357개의 항목으로 구성됩니다. 또한 OpenAI 사용 정책을 준수하는 9가지 무해한 작업을 설계하여 실제 세계의 무해한 작업을 시뮬레이션합니다. 이러한 작업은 사용자가 제공하는 콘텐츠의 양에 따라 '다량', '중간', '제한적'의 세 가지 범주로 분류됩니다. 본 연구에서는 구축된 유해 지식 데이터셋과 무해한 작업 세트를 활용하여, 9가지 LLM이 무해한 작업을 수행하는 동안 사용자 제공 유해 콘텐츠에 노출되었을 때의 행동을 평가하고, 유해 지식 범주와 작업 간의 상호 작용이 각 LLM에 미치는 영향을 분석합니다. 연구 결과, 최신 GPT-5.2 및 Gemini-3-Pro를 포함한 현재 LLM조차도 유해 콘텐츠를 처리하는 것을 멈추지 않고, 인간의 가치에 부합하는 윤리를 준수하지 못하는 경우가 많습니다. 특히 '폭력/그로테스크' 범주의 외부 지식과 '번역' 작업은 LLM에서 유해한 응답을 유발할 가능성이 더 높습니다. 또한 본 연구에서는 이러한 새로운 남용 취약성에 영향을 미칠 수 있는 잠재적 요인을 조사하기 위한 다양한 실험을 수행했습니다. 본 연구가 이해 관계자들에게 이 간과된 콘텐츠 수준의 윤리적 위험을 완화하기 위한 향상된 안전 조치를 마련하는 데 영감을 줄 수 있기를 바랍니다.
Large Language Models (LLMs) are increasingly trained to align with human values, primarily focusing on task level, i.e., refusing to execute directly harmful tasks. However, a subtle yet crucial content-level ethical question is often overlooked: when performing a seemingly benign task, will LLMs -- like morally conscious human beings -- refuse to proceed when encountering harmful content in user-provided material? In this study, we aim to understand this content-level ethical question and systematically evaluate its implications for mainstream LLMs. We first construct a harmful knowledge dataset (i.e., non-compliant with OpenAI's usage policy) to serve as the user-supplied harmful content, with 1,357 entries across ten harmful categories. We then design nine harmless tasks (i.e., compliant with OpenAI's usage policy) to simulate the real-world benign tasks, grouped into three categories according to the extent of user-supplied content required: extensive, moderate, and limited. Leveraging the harmful knowledge dataset and the set of harmless tasks, we evaluate how nine LLMs behave when exposed to user-supplied harmful content during the execution of benign tasks, and further examine how the dynamics between harmful knowledge categories and tasks affect different LLMs. Our results show that current LLMs, even the latest GPT-5.2 and Gemini-3-Pro, often fail to uphold human-aligned ethics by continuing to process harmful content in harmless tasks. Furthermore, external knowledge from the ``Violence/Graphic'' category and the ``Translation'' task is more likely to elicit harmful responses from LLMs. We also conduct extensive ablation studies to investigate potential factors affecting this novel misuse vulnerability. We hope that our study could inspire enhanced safety measures among stakeholders to mitigate this overlooked content-level ethical risk.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.