2602.15028v1 Feb 16, 2026 cs.LG

긴 문맥, 낮은 집중도: LLM의 확장 격차: 개인 정보 보호 및 개인화 측면에서 드러나는 현상

Long Context, Less Focus: A Scaling Gap in LLMs Revealed through Privacy and Personalization

Shangding Gu
Shangding Gu
Citations: 112
h-index: 6

대규모 언어 모델(LLM)은 점점 더 많은 개인 정보 보호가 중요하고 개인화 기능이 필요한 환경에서 사용되고 있지만, 문맥 길이에 따른 개인 정보 유출 및 개인화 효과에 미치는 영향은 아직 충분히 연구되지 않았습니다. 본 연구에서는 문맥 길이에 따른 개인화 품질과 개인 정보 보호에 미치는 영향을 체계적으로 연구하기 위해 대규모 벤치마크인 PAPerBench를 소개합니다. PAPerBench는 1K에서 256K 토큰까지 다양한 문맥 길이를 가진 약 29,000개의 데이터 인스턴스로 구성되어 있으며, 총 377,000개의 평가 질문을 포함합니다. 이 벤치마크는 다양한 시나리오에서 개인화 성능과 개인 정보 위험을 동시에 평가하여, 긴 문맥 모델의 동작을 체계적으로 분석할 수 있도록 합니다. 최첨단 LLM에 대한 광범위한 평가 결과, 문맥 길이가 증가함에 따라 개인화 및 개인 정보 보호 성능이 일관되게 저하되는 것을 확인했습니다. 또한, 문맥 확장 시 발생하는 어텐션 희석 현상에 대한 이론적 분석을 통해, 이는 고정 용량 트랜스포머의 소프트 어텐션 메커니즘의 고유한 한계로 인해 발생하는 현상임을 설명합니다. 경험적 및 이론적 결과는 현재 모델의 일반적인 확장 격차, 즉 '긴 문맥, 낮은 집중도' 현상을 시사합니다. 본 연구에서는 재현 가능한 평가 및 확장 가능한 개인 정보 보호 및 개인화에 대한 향후 연구를 지원하기 위해 벤치마크를 공개합니다. 코드 및 데이터는 다음 주소에서 확인할 수 있습니다: https://github.com/SafeRL-Lab/PAPerBench

Original Abstract

Large language models (LLMs) are increasingly deployed in privacy-critical and personalization-oriented scenarios, yet the role of context length in shaping privacy leakage and personalization effectiveness remains largely unexplored. We introduce a large-scale benchmark, PAPerBench, to systematically study how increasing context length influences both personalization quality and privacy protection in LLMs. The benchmark comprises approximately 29,000 instances with context lengths ranging from 1K to 256K tokens, yielding a total of 377K evaluation questions. It jointly evaluates personalization performance and privacy risks across diverse scenarios, enabling controlled analysis of long-context model behavior. Extensive evaluations across state-of-the-art LLMs reveal consistent performance degradation in both personalization and privacy as context length increases. We further provide a theoretical analysis of attention dilution under context scaling, explaining this behavior as an inherent limitation of soft attention in fixed-capacity Transformers. The empirical and theoretical findings together suggest a general scaling gap in current models -- long context, less focus. We release the benchmark to support reproducible evaluation and future research on scalable privacy and personalization. Code and data are available at https://github.com/SafeRL-Lab/PAPerBench

0 Citations
0 Influential
28.493061443341 Altmetric
142.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!