악의적인 의도를 포함한 데이터셋 및 LLM에 대한 접종: 향상된 허위 정보 탐지를 위한 연구
MALicious INTent Dataset and Inoculating LLMs for Enhanced Disinformation Detection
의도적인 허위 정보 생성 및 유포는 공론에 심각한 위협을 가합니다. 그러나 기존의 영어 데이터셋 및 연구는 대부분 허위 정보의 의도성에 대한 부분을 다루지 않습니다. 본 연구에서는 전문가 팩트체커와의 협력을 통해 개발된 최초의 인간 주석이 달린 영어 데이터셋인 MALINT를 제시합니다. MALINT는 허위 정보와 그 악의적인 의도를 포착하기 위해 설계되었습니다. 본 연구에서는 개발된 데이터셋을 활용하여 BERT와 같은 소규모 언어 모델(SLM)과 Llama 3.3과 같은 대규모 언어 모델(LLM)을 포함한 12개의 언어 모델을 이진 분류 및 다중 레이블 분류 작업에 대해 비교 분석했습니다. 또한 심리학 및 커뮤니케이션 연구에서 제시된 '접종 이론'에서 영감을 받아, 악의적인 의도에 대한 지식을 통합하면 허위 정보 탐지 능력이 향상될 수 있는지 조사했습니다. 이를 위해, 우리는 LLM의 설득력을 완화하기 위해 의도 분석을 통합하는 의도 기반 접종(intent-based inoculation)이라는 새로운 방법을 제안합니다. 6개의 허위 정보 데이터셋, 5개의 LLM, 그리고 7개의 언어에 대한 분석 결과, 의도 기반의 추론이 제로샷 허위 정보 탐지 능력을 향상시키는 것으로 나타났습니다. 의도 기반 허위 정보 탐지 연구를 지원하기 위해, 본 연구에서는 각 주석 단계의 정보를 포함한 MALINT 데이터셋을 공개합니다.
The intentional creation and spread of disinformation poses a significant threat to public discourse. However, existing English datasets and research rarely address the intentionality behind the disinformation. This work presents MALINT, the first human-annotated English corpus developed in collaboration with expert fact-checkers to capture disinformation and its malicious intent. We utilize our novel corpus to benchmark 12 language models, including small language models (SLMs) such as BERT and large language models (LLMs) like Llama 3.3, on binary and multilabel intent classification tasks. Moreover, inspired by inoculation theory from psychology and communication studies, we investigate whether incorporating knowledge of malicious intent can improve disinformation detection. To this end, we propose intent-based inoculation, an intent-augmented reasoning for LLMs that integrates intent analysis to mitigate the persuasive impact of disinformation. Analysis on six disinformation datasets, five LLMs, and seven languages shows that intent-augmented reasoning improves zero-shot disinformation detection. To support research in intent-aware disinformation detection, we release the MALINT dataset with annotations from each annotation step.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.