생성 언어 모델에서 도서 추출
Extracting books from production language models
LLM(Large Language Model, 거대 언어 모델)과 저작권에 관한 많은 해결되지 않은 법적 문제는 '기억'에 집중되어 있습니다. 즉, 특정 학습 데이터가 모델 학습 과정에서 모델의 가중치에 저장되었는지, 그리고 이러한 저장된 데이터가 모델의 출력 결과에서 추출될 수 있는지 여부가 핵심 쟁점입니다. 많은 사람들이 LLM이 학습 데이터의 상당 부분을 기억하지 않는다고 믿지만, 최근 연구 결과에 따르면 오픈 소스 모델에서 상당량의 저작권 보호 텍스트를 추출할 수 있다는 것이 밝혀졌습니다. 그러나 이러한 추출이 안전 장치를 구현한 상용 LLM에서도 가능한지 여부는 여전히 미해결 문제입니다. 본 연구에서는 두 단계의 절차를 사용하여 이 질문을 조사합니다. (1) 먼저 추출 가능성을 테스트하는 초기 탐색 단계로, 때로는 Best-of-N (BoN) 제어 우회 기법을 사용하며, (2) 그 다음으로 책 내용을 추출하기 위해 반복적인 프롬프트를 사용합니다. 우리는 Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro, 그리고 Grok 3의 네 가지 상용 LLM에 대해 이 절차를 평가하고, 추출 성공 여부를 가장 긴 공통 부분 문자열(longest common substring)을 블록 단위로 근사하여 계산한 지표(nv-recall)를 사용하여 측정합니다. LLM별로 실험 설정을 다르게 하여, 다양한 양의 텍스트를 추출할 수 있었습니다. 1단계 탐색 단계에서 Gemini 2.5 Pro와 Grok 3에서는 텍스트 추출을 위해 제어 우회 기법을 사용할 필요가 없었습니다(예: Harry Potter and the Sorcerer's Stone의 경우 각각 nv-recall이 76.8% 및 70.3%). 반면, Claude 3.7 Sonnet과 GPT-4.1에서는 제어 우회 기법이 필요했습니다. 일부 경우, 제어 우회 기법을 사용한 Claude 3.7 Sonnet은 책의 거의 전체 내용을 거의 그대로 출력했습니다(예: nv-recall=95.8%). GPT-4.1은 훨씬 더 많은 BoN 시도가 필요했으며(예: 20배), 결국 응답을 거부했습니다(예: nv-recall=4.0%). 종합적으로 볼 때, 본 연구는 모델 및 시스템 수준의 안전 장치가 마련되어 있더라도, 상용 LLM에서 저작권 보호 학습 데이터를 추출하는 것이 여전히 위험하다는 점을 강조합니다.
Many unresolved legal questions over LLMs and copyright center on memorization: whether specific training data have been encoded in the model's weights during training, and whether those memorized data can be extracted in the model's outputs. While many believe that LLMs do not memorize much of their training data, recent work shows that substantial amounts of copyrighted text can be extracted from open-weight models. However, it remains an open question if similar extraction is feasible for production LLMs, given the safety measures these systems implement. We investigate this question using a two-phase procedure: (1) an initial probe to test for extraction feasibility, which sometimes uses a Best-of-N (BoN) jailbreak, followed by (2) iterative continuation prompts to attempt to extract the book. We evaluate our procedure on four production LLMs -- Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro, and Grok 3 -- and we measure extraction success with a score computed from a block-based approximation of longest common substring (nv-recall). With different per-LLM experimental configurations, we were able to extract varying amounts of text. For the Phase 1 probe, it was unnecessary to jailbreak Gemini 2.5 Pro and Grok 3 to extract text (e.g, nv-recall of 76.8% and 70.3%, respectively, for Harry Potter and the Sorcerer's Stone), while it was necessary for Claude 3.7 Sonnet and GPT-4.1. In some cases, jailbroken Claude 3.7 Sonnet outputs entire books near-verbatim (e.g., nv-recall=95.8%). GPT-4.1 requires significantly more BoN attempts (e.g., 20X), and eventually refuses to continue (e.g., nv-recall=4.0%). Taken together, our work highlights that, even with model- and system-level safeguards, extraction of (in-copyright) training data remains a risk for production LLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.