오픈 AI 공급망에서의 허용적 라이선스 위반: 라이선스 무결성에 대한 대규모 감사
Permissive-Washing in the Open AI Supply Chain: A Large-Scale Audit of License Integrity
MIT, Apache-2.0, BSD-3-Clause와 같은 허용적 라이선스는 오픈 소스 AI 분야에서 널리 사용되며, 모델, 데이터셋, 코드와 같은 결과물을 자유롭게 사용, 수정 및 재배포할 수 있음을 의미합니다. 그러나 이러한 라이선스는 전체 라이선스 텍스트 포함, 저작권 표시, 상위 공급업체 출처 보존과 같은 필수 요구 사항을 포함하며, 이러한 요구 사항은 대규모로 검증되지 않은 경우가 많습니다. 이러한 조건들을 충족하지 못하면 재사용이 라이선스의 범위에서 벗어나게 되어, 해당 사용에 대해 기본 저작권이 적용되고, 하위 사용자들은 소송에 노출될 수 있습니다. 우리는 이러한 현상을 '허용적 위반(permissive washing)'이라고 부릅니다. 이는 AI 결과물을 자유롭게 사용할 수 있다고 표기하면서, 실제로 그러한 표기를 뒷받침할 수 있는 법적 문서를 누락하는 현상을 의미합니다. AI 공급망에서 허용적 위반이 얼마나 만연한지 평가하기 위해, Hugging Face와 GitHub에 존재하는 3,338개의 데이터셋, 6,664개의 모델, 28,516개의 애플리케이션을 연결하는 124,278개의 데이터셋 → 모델 → 애플리케이션 공급망을 경험적으로 감사했습니다. 그 결과, 데이터셋의 96.5%와 모델의 95.8%가 필수 라이선스 텍스트를 포함하지 않으며, 데이터셋의 2.3%와 모델의 3.2%만이 라이선스 텍스트와 저작권 요구 사항을 모두 충족합니다. 또한, 상위 결과물이 완전한 라이선스 정보를 제공하더라도, 출처 정보가 하위 단계로 제대로 전달되는 경우는 드뭅니다. 모델의 27.59%만이 준수하는 데이터셋 출처 정보를 보존하고, 애플리케이션의 5.75%만이 준수하는 모델 출처 정보를 보존합니다 (그리고 6.38%만이 관련된 상위 출처 정보를 보존합니다). 실무자들은 허용적 표기가 주장하는 권리를 실제로 보장한다고 가정할 수 없습니다. 라이선스 파일과 출처 정보는 메타데이터가 아닌 법적 진실의 원천입니다. 향후 연구를 지원하기 위해, 저희는 전체 감사 데이터셋과 재현 가능한 파이프라인을 공개합니다.
Permissive licenses like MIT, Apache-2.0, and BSD-3-Clause dominate open-source AI, signaling that artifacts like models, datasets, and code can be freely used, modified, and redistributed. However, these licenses carry mandatory requirements: include the full license text, provide a copyright notice, and preserve upstream attribution, that remain unverified at scale. Failure to meet these conditions can place reuse outside the scope of the license, effectively leaving AI artifacts under default copyright for those uses and exposing downstream users to litigation. We call this phenomenon ``permissive washing'': labeling AI artifacts as free to use, while omitting the legal documentation required to make that label actionable. To assess how widespread permissive washing is in the AI supply chain, we empirically audit 124,278 dataset $\rightarrow$ model $\rightarrow$ application supply chains, spanning 3,338 datasets, 6,664 models, and 28,516 applications across Hugging Face and GitHub. We find that an astonishing 96.5\% of datasets and 95.8\% of models lack the required license text, only 2.3\% of datasets and 3.2\% of models satisfy both license text and copyright requirements, and even when upstream artifacts provide complete licensing evidence, attribution rarely propagates downstream: only 27.59\% of models preserve compliant dataset notices and only 5.75\% of applications preserve compliant model notices (with just 6.38\% preserving any linked upstream notice). Practitioners cannot assume permissive labels confer the rights they claim: license files and notices, not metadata, are the source of legal truth. To support future research, we release our full audit dataset and reproducible pipeline.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.