GhostCite: 대규모 언어 모델 시대의 인용 유효성 분석
GhostCite: A Large-Scale Analysis of Citation Validity in the Age of Large Language Models
인용은 과학적 주장의 신뢰성을 뒷받침하는 근거이며, 인용이 유효하지 않거나 위조될 경우 이러한 신뢰는 무너집니다. 대규모 언어 모델(LLM)의 등장으로 이러한 위험은 더욱 심화되었습니다. LLM은 학술 글쓰기에 점점 더 많이 사용되고 있지만, LLM의 인용 위조(``가짜 인용'') 경향은 인용 유효성에 심각한 위협을 가합니다. 이러한 위협을 정량화하고 해결 방안을 모색하기 위해, 우리는 대규모 인용 검증을 위한 오픈 소스 프레임워크인 CiteVerifier를 개발하고, 이를 기반으로 LLM 시대의 인용 유효성에 대한 최초의 종합적인 연구를 수행했습니다. 우리는 40개의 연구 분야에서 13개의 최첨단 LLM을 사용하여 인용 생성 성능을 평가한 결과, 모든 모델이 14.23%에서 94.93%의 가짜 인용을 생성하며, 연구 분야에 따라 상당한 차이를 보였습니다. 또한, 최고 수준의 AI/ML 및 보안 분야 학술지에 게재된 56,381편의 논문(2020~2025)에서 추출한 220만 건의 인용을 분석한 결과, 1.07%의 논문(604편)이 유효하지 않거나 위조된 인용을 포함하고 있으며, 특히 2025년에만 80.9%의 증가율을 보였습니다. 더 나아가, 97명의 연구자를 대상으로 설문조사를 실시하고 3개의 충돌 샘플을 제거한 94개의 유효한 응답을 분석한 결과, 심각한 ``검증 격차``가 확인되었습니다. 41.5%의 연구자들이 BibTeX 정보를 확인 없이 복사-붙여넣기를 하고, 44.4%의 연구자들이 의심스러운 참고 문헌을 발견했을 때 아무런 조치를 취하지 않습니다. 또한, 76.7%의 심사위원들은 참고 문헌을 철저하게 검토하지 않으며, 80.0%의 심사위원들은 위조된 인용을 의심하지 않습니다. 이러한 결과는 신뢰할 수 없는 AI 도구, 연구자의 부적절한 검증, 그리고 부족한 동료 심사 과정이 결합되어 위조된 인용이 과학적 기록을 오염시키는 심각한 위기를 초래하고 있음을 보여줍니다. 우리는 연구자, 학술지, 그리고 도구 개발자를 위한 인용의 무결성을 보호하기 위한 해결책을 제안합니다.
Citations provide the basis for trusting scientific claims; when they are invalid or fabricated, this trust collapses. With the advent of Large Language Models (LLMs), this risk has intensified: LLMs are increasingly used for academic writing, yet their tendency to fabricate citations (``ghost citations'') poses a systemic threat to citation validity. To quantify this threat and inform mitigation, we develop CiteVerifier, an open-source framework for large-scale citation verification, and conduct the first comprehensive study of citation validity in the LLM era through three experiments built on it. We benchmark 13 state-of-the-art LLMs on citation generation across 40 research domains, finding that all models hallucinate citations at rates from 14.23\% to 94.93\%, with significant variation across research domains. Moreover, we analyze 2.2 million citations from 56,381 papers published at top-tier AI/ML and Security venues (2020--2025), confirming that 1.07\% of papers contain invalid or fabricated citations (604 papers), with an 80.9\% increase in 2025 alone. Furthermore, we survey 97 researchers and analyze 94 valid responses after removing 3 conflicting samples, revealing a critical ``verification gap'': 41.5\% of researchers copy-paste BibTeX without checking and 44.4\% choose no-action responses when encountering suspicious references; meanwhile, 76.7\% of reviewers do not thoroughly check references and 80.0\% never suspect fake citations. Our findings reveal an accelerating crisis where unreliable AI tools, combined with inadequate human verification by researchers and insufficient peer review scrutiny, enable fabricated citations to contaminate the scientific record. We propose interventions for researchers, venues, and tool developers to protect citation integrity.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.