RAT-Bench: 텍스트 익명화 도구를 위한 종합적인 벤치마크
RAT-Bench: A Comprehensive Benchmark for Text Anonymization
개인 정보를 포함하는 데이터는 점점 더 많이 사용되어 대규모 언어 모델(LLM)을 훈련, 미세 조정 또는 쿼리하는 데 사용됩니다. 텍스트는 일반적으로 사용되기 전에 식별 정보를 제거하며, Microsoft의 Presidio 또는 Anthropic의 PII 정화기와 같은 도구가 자주 사용됩니다. 이러한 도구는 일반적으로 특정 식별자(예: 이름)를 제거하는 능력에 대해 평가되지만, 재식별을 방지하는 효과는 여전히 불분명합니다. 본 연구에서는 재식별 위험을 기반으로 텍스트 익명화 도구를 평가하는 종합적인 벤치마크인 RAT-Bench를 소개합니다. 미국 인구 통계 정보를 사용하여 다양한 직접 및 간접 식별자를 포함하는 합성 텍스트를 생성하며, 이는 다양한 도메인, 언어 및 난이도 수준을 포괄합니다. 다양한 NER(Named Entity Recognition) 및 LLM 기반 텍스트 익명화 도구를 평가하고, 익명화된 텍스트에서 LLM 기반 공격자가 정확하게 추론할 수 있는 속성을 기반으로, 미국 인구의 재식별 위험을 보고합니다. 이 과정에서 식별자의 불균형적인 영향을 적절하게 고려합니다. 연구 결과, 도구의 성능은 매우 다양하지만, 특히 직접 식별자가 표준적인 방식으로 작성되지 않거나 간접 식별자가 재식별을 가능하게 하는 경우, 최상의 도구조차도 완벽하지 않다는 것을 확인했습니다. 전반적으로 LLM 기반 익명화 도구, 특히 새로운 반복 익명화 도구가 더 나은 개인 정보 보호 및 유용성 균형을 제공하지만, 계산 비용이 더 높다는 것을 발견했습니다. 또한, 이러한 도구는 여러 언어에서도 잘 작동한다는 것을 확인했습니다. 마지막으로, 향후 익명화 도구 개발을 위한 권장 사항을 제시하고, 벤치마크를 공개하여 커뮤니티의 참여를 장려하고, 특히 다른 지역으로 확장할 것을 제안합니다.
Data containing personal information is increasingly used to train, fine-tune, or query Large Language Models (LLMs). Text is typically scrubbed of identifying information prior to use, often with tools such as Microsoft's Presidio or Anthropic's PII purifier. These tools have traditionally been evaluated on their ability to remove specific identifiers (e.g., names), yet their effectiveness at preventing re-identification remains unclear. We introduce RAT-Bench, a comprehensive benchmark for text anonymization tools based on re-identification risk. Using U.S. demographic statistics, we generate synthetic text containing various direct and indirect identifiers across domains, languages, and difficulty levels. We evaluate a range of NER- and LLM-based text anonymization tools and, based on the attributes an LLM-based attacker is able to correctly infer from the anonymized text, we report the risk of re-identification in the U.S. population, while properly accounting for the disparate impact of identifiers. We find that, while capabilities vary widely, even the best tools are far from perfect in particular when direct identifiers are not written in standard ways and when indirect identifiers enable re-identification. Overall we find LLM-based anonymizers, including new iterative anonymizers, to provide a better privacy-utility trade-off albeit at a higher computational cost. Importantly, we also find them to work well across languages. We conclude with recommendations for future anonymization tools and will release the benchmark and encourage community efforts to expand it, in particular to other geographies.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.