작은 업데이트, 큰 의문: 파라미터 효율적인 미세 조정이 환각 현상 감지 능력을 향상시키는가?
Small Updates, Big Doubts: Does Parameter-Efficient Fine-tuning Enhance Hallucination Detection ?
파라미터 효율적인 미세 조정(PEFT) 방법은 대규모 언어 모델(LLM)을 다양한 하위 작업에 적용하는 데 널리 사용되며, 종종 사실 정확도를 향상시킨다고 여겨집니다. 그러나 PEFT 방법이 환각 현상에 미치는 영향은, 특히 질의응답(QA) 데이터셋에서, 충분히 이해되지 않고 있습니다. 본 연구에서는 세 가지 공개 LLM 모델과 세 가지 사실 기반 질의응답 벤치마크를 대상으로 광범위한 실험을 통해 PEFT가 환각 현상 감지에 미치는 영향을 체계적으로 조사합니다. 각 모델에 대해, 세 가지 상호 보완적인 접근 방식(의미적 일관성 기반 감지기, 신뢰도 기반 감지기, 엔트로피 기반 감지기)을 포괄하는 7가지 비지도 환각 현상 감지 방법을 사용하여 성능을 평가합니다. 이러한 다각적인 평가는 PEFT가 다양한 감지 패러다임을 통해 불확실성을 어떻게 변화시키는지 파악할 수 있도록 합니다. 결론적으로, 실험 결과는 PEFT가 일관되게 환각 현상 감지 능력을 강화하며, 다양한 환각 현상 감지기에서 AUROC를 크게 향상시킨다는 것을 보여줍니다. 또한, 선형 프로브 및 표현 분석을 통한 추가 분석은 PEFT 방법이 주로 모델에 새로운 사실 지식을 주입하는 것과 비교하여 불확실성이 어떻게 인코딩되고 드러나는지를 변화시킨다는 것을 시사합니다.
Parameter-efficient fine-tuning (PEFT) methods are widely used to adapt large language models (LLMs) to downstream tasks and are often assumed to improve factual correctness. However, how the parameter-efficient fine-tuning methods affect hallucination behavior remains insufficiently understood, especially on QA datasets. In this work, we systematically investigate the impact of PEFT on hallucination detection through a comprehensive empirical study across three open-weight LLM backbones and three fact-seeking QA benchmarks. For each model, we evaluate performance using seven unsupervised hallucination detection methods spanning three complementary approaches: semantic consistency based detectors, confidence based detectors, and entropy based detectors. This multifaceted evaluation enables us to characterize how PEFT reshapes uncertainty across different detection paradigms. In conclusion, our experimental results show that PEFT consistently strengthens hallucination detection ability, substantially improving AUROC across a wide range of hallucination detectors. Besides, further analyses using linear probes and representation diagnostics indicate that PEFT methods primarily reshapes how uncertainty is encoded and surfaced, comparing with injecting new factual knowledge into the models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.