APPSI-139: 영어 애플리케이션 개인정보처리방침 요약 및 해석을 위한 병렬 코퍼스
APPSI-139: A Parallel Corpus of English Application Privacy Policy Summarization and Interpretation
개인정보처리방침은 사용자가 서비스 제공자가 자신의 개인 데이터를 어떻게 처리하는지 이해하는 데 필수적입니다. 그러나 이러한 문서들은 종종 길고 복잡하며, 기술 용어와 법률 용어로 가득 차 있어 사용자가 법률에 위배되는 조항을 인지하지 못한 채 동의하게 되는 경우가 많습니다. 이러한 개인정보처리방침을 요약하고 해석하는 것은 매우 중요하지만, 법률적 명확성과 가독성을 고려하여 최적화된 고품질의 영어 병렬 코퍼스가 부족한 상황입니다. 이러한 문제를 해결하기 위해, 본 연구에서는 도메인 전문가가 세심하게 주석을 달아 요약 및 해석 작업에 특화된 고품질의 영어 개인정보처리방침 코퍼스인 APPSI-139를 소개합니다. 이 코퍼스에는 139개의 영어 개인정보처리방침, 15,692개의 재작성된 병렬 데이터, 그리고 11개의 데이터 처리 범주에 걸쳐 36,351개의 세분화된 주석 레이블이 포함되어 있습니다. 동시에, 우리는 교차 훈련 전략을 사용하고 여러 전문 모듈을 조정하여 계산 효율성과 정확성의 균형을 효과적으로 맞추는 하이브리드 개인정보처리방침 요약 및 해석 프레임워크인 TCSI-pp-V2를 제안합니다. 실험 결과에 따르면, APPSI-139 코퍼스와 TCSI-pp-V2 프레임워크를 기반으로 구축된 하이브리드 요약 시스템은 GPT-4o 및 LLaMA-3-70B와 같은 대규모 언어 모델보다 가독성 및 신뢰성 측면에서 더 우수한 성능을 보였습니다. 소스 코드 및 데이터셋은 https://github.com/EnlightenedAI/APPSI-139 에서 확인할 수 있습니다.
Privacy policies are essential for users to understand how service providers handle their personal data. However, these documents are often long and complex, as well as filled with technobabble and legalese, causing users to unknowingly accept terms that may even contradict the law. While summarizing and interpreting these privacy policies is crucial, there is a lack of high-quality English parallel corpus optimized for legal clarity and readability. To address this issue, we introduce APPSI-139, a high-quality English privacy policy corpus meticulously annotated by domain experts, specifically designed for summarization and interpretation tasks. The corpus includes 139 English privacy policies, 15,692 rewritten parallel corpora, and 36,351 fine-grained annotation labels across 11 data practice categories. Concurrently, we propose TCSI-pp-V2, a hybrid privacy policy summarization and interpretation framework that employs an alternating training strategy and coordinates multiple expert modules to effectively balance computational efficiency and accuracy. Experimental results show that the hybrid summarization system built on APPSI-139 corpus and the TCSI-pp-V2 framework outperform large language models, such as GPT-4o and LLaMA-3-70B, in terms of readability and reliability. The source code and dataset are available at https://github.com/EnlightenedAI/APPSI-139.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.