2604.22157v1 Apr 24, 2026 cs.CR

PrivSTRUCT: 구글 플레이 스토어 개인정보 처리방침의 데이터 수집 목적 준수 여부 분석

PrivSTRUCT: Untangling Data Purpose Compliance of Privacy Policies in Google Play Store

Bhanuka Silva
Bhanuka Silva
Citations: 23
h-index: 3
A. Mahanti
A. Mahanti
Citations: 6,235
h-index: 34
Aruna Seneviratne
Aruna Seneviratne
Citations: 13
h-index: 2
Suranga Senevirante
Suranga Senevirante
Citations: 0
h-index: 0

기존 연구에서는 개인정보 처리방침을 평면적이고 균일한 텍스트로 취급하여, 문서의 논리적 계층 구조를 고려하지 않고 정보를 추출하는 경향이 있습니다. 섹션 제목의 구조적 단서를 무시하면 자동화된 방법이 서로 다른 데이터 처리 방식을 얽히게 만들 수 있으며, 특히 민감한 데이터 항목을 해당 항목의 구체적인 목적과 연결하는 데 문제가 발생합니다. 이러한 문제를 해결하기 위해, 우리는 복잡한 개인정보 공개 내용을 명확하게 구분할 수 있는 새로운 통합 인코더-디코더 프레임워크인 PrivSTRUCT를 소개합니다. PoliGrapher와 같은 최첨단 도구와의 비교 실험 결과, PrivSTRUCT는 개발자가 정의한 구조적 단서를 유지하면서 x2 이상의 데이터 항목 및 목적 관련 정보를 추출하는 것으로 나타났습니다. PrivSTRUCT를 3,756개의 Android 앱으로 구성된 대규모 데이터 세트에 적용한 결과, 중요한 투명성 격차가 발견되었습니다. 개발자가 데이터 수집 목적을 과장할 확률은 자체 수집의 경우 20.4% 높고, 제3자 공유의 경우 9.7% 높으며, 이는 전역적으로 정의된 목적을 사용하는 경우 특정하고 지역적으로 제한된 공개 내용을 사용하는 경우보다 더 높은 비율입니다. 더욱 우려스러운 점은, 재무 데이터와 같은 민감한 제3자 데이터가 분석을 위해 공유되는 경우가 빈번하게 일반적이거나 관련 없는 범주로 희석되고 얽혀 있다는 사실을 발견했습니다. 이는 현재의 목적 공개 방식에 심각한 결함이 있음을 보여줍니다.

Original Abstract

Existing research typically treats privacy policies as flat, uniform text, extracting information without regard for the document's logical hierarchy. Disregard for structural cues of section headings designed to guide the reader, often leads automated methods to entangle distinct data practices, particularly when linking sensitive data items to their specific purposes. To address this, we introduce PrivSTRUCT, a novel and systematic encoder and decoder combined framework that to untangle complex privacy disclosures. Benchmarking against the state-of-the-art tool PoliGrapher reveals that PrivSTRUCT robustly extracts more than x2 the number of data item and purpose excerpts while retaining developer-defined structural cues. By applying PrivSTRUCT to a large-scale dataset of 3,756 Android apps, we uncover a critical transparency gap: the probability of developers overstating a data purpose is 20.4% higher for first-party collection and 9.7% higher for third-party sharing when they rely on globally defined purposes rather than specific, locally scoped disclosures. Alarmingly, we find that sensitive third-party data flows such as sharing financial data for analytics are frequently diluted and entangled into generic or unrelated categories, highlighting a persistent failure in the current purpose disclosure landscape.

0 Citations
0 Influential
17 Altmetric
85.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!