2604.18880v1 Apr 20, 2026 cs.CL

가짜 인용이 생성되는 위치: LLM 내 특정 뉴런에서 나타나는 분야 수준의 환각 현상 추적

Where Fake Citations Are Made: Tracing Field-Level Hallucination to Specific Neurons in LLMs

Ruixiang Tang
Ruixiang Tang
Citations: 0
h-index: 0
Yuefei Chen
Yuefei Chen
Citations: 10
h-index: 1
Yihao Quan
Yihao Quan
Citations: 121
h-index: 4
Xiaodong Lin
Xiaodong Lin
Citations: 5
h-index: 2

LLM은 종종 허구이지만 설득력 있는 인용문을 생성하며, 종종 기본 참조가 틀렸음에도 높은 확신을 표출합니다. 우리는 9개의 모델과 108,000개의 생성된 참조 데이터를 사용하여 이 문제를 연구했으며, 모든 모델과 설정에서 저자 이름이 다른 분야보다 훨씬 더 자주 오류를 발생시키는 것을 확인했습니다. 인용 스타일은 측정 가능한 영향을 미치지 않으며, 추론 지향적 증류는 재현율을 저하시킵니다. 하나의 분야에서 학습된 탐지기는 다른 분야에서 거의 무작위 수준으로 전이되며, 이는 환각 신호가 분야 간에 일반화되지 않는다는 것을 시사합니다. 이러한 연구 결과를 바탕으로, Qwen2.5-32B-Instruct 모델의 뉴런 수준 CETT 값에 대해 elastic-net 정규화와 안정성 선택을 적용하여 분야별 환각 뉴런(FH-뉴런)의 희소 집합을 식별했습니다. 인과적 개입을 통해 이러한 뉴런의 역할이 더욱 명확해졌습니다. 이러한 뉴런을 증폭시키면 환각 현상이 증가하는 반면, 억제하면 모든 분야에서 성능이 향상되며, 일부 분야에서는 더 큰 개선이 나타납니다. 이러한 결과는 내부 모델 신호만 사용하여 인용 환각을 탐지하고 완화하는 경량 접근 방식을 제시합니다.

Original Abstract

LLMs frequently generate fictitious yet convincing citations, often expressing high confidence even when the underlying reference is wrong. We study this failure across 9 models and 108{,}000 generated references, and find that author names fail far more often than other fields across all models and settings. Citation style has no measurable effect, while reasoning-oriented distillation degrades recall. Probes trained on one field transfer at near-chance levels to the others, suggesting that hallucination signals do not generalize across fields. Building on this finding, we apply elastic-net regularization with stability selection to neuron-level CETT values of Qwen2.5-32B-Instruct and identify a sparse set of field-specific hallucination neurons (FH-neurons). Causal intervention further confirms their role: amplifying these neurons increases hallucination, while suppressing them improves performance across fields, with larger gains in some fields. These results suggest a lightweight approach to detecting and mitigating citation hallucination using internal model signals alone.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!