2601.14310v1 Jan 19, 2026 cs.CR

CORVUS: 내부 신호 위장화를 통한 대규모 언어 모델의 환각 탐지기 적대적 테스트

CORVUS: Red-Teaming Hallucination Detectors via Internal Signal Camouflage in Large Language Models

Nay Myat Min
Nay Myat Min
Citations: 25
h-index: 2
Long H. Pham
Long H. Pham
Citations: 552
h-index: 8
Hongyu Zhang
Hongyu Zhang
Citations: 60
h-index: 4
Jun Sun
Jun Sun
Citations: 27
h-index: 2

단일 단계 환각 탐지기는 대규모 언어 모델의 내부 텔레메트리(예: 불확실성, 은닉 상태 기하학, 어텐션)에 의존하며, 이는 암시적으로 환각이 이러한 신호에 분리 가능한 흔적을 남긴다는 것을 가정합니다. 본 연구에서는 모델 내부의 적대자가 경량 LoRA 어댑터를 모델에 미세 조정하는 동시에 탐지기를 고정시키는 백박스 방식을 사용합니다. CORVUS는 효율적인 적대적 테스트 절차로, 교사 강제 학습을 통해 탐지기에 보이는 텔레메트리 신호를 위장하도록 학습하며, 임베딩 공간 FGSM 어텐션 스트레스 테스트를 포함합니다. 1,000개의 분산형 Alpaca 명령어(0.5% 미만의 학습 가능한 파라미터)로 학습된 CORVUS는 Llama-2, Vicuna, Llama-3 및 Qwen2.5 모델에서 FAVA-Annotation 데이터셋으로 전이 가능하며, 학습이 필요 없는 탐지기(예: LLM-Check)와 프로브 기반 탐지기(예: SEP, ICR-probe) 모두의 성능을 저하시킵니다. 이는 외부 정보 또는 교차 모델 증거를 통합하는 적대자 인지 감사 시스템의 필요성을 강조합니다.

Original Abstract

Single-pass hallucination detectors rely on internal telemetry (e.g., uncertainty, hidden-state geometry, and attention) of large language models, implicitly assuming hallucinations leave separable traces in these signals. We study a white-box, model-side adversary that fine-tunes lightweight LoRA adapters on the model while keeping the detector fixed, and introduce CORVUS, an efficient red-teaming procedure that learns to camouflage detector-visible telemetry under teacher forcing, including an embedding-space FGSM attention stress test. Trained on 1,000 out-of-distribution Alpaca instructions (<0.5% trainable parameters), CORVUS transfers to FAVA-Annotation across Llama-2, Vicuna, Llama-3, and Qwen2.5, and degrades both training-free detectors (e.g., LLM-Check) and probe-based detectors (e.g., SEP, ICR-probe), motivating adversary-aware auditing that incorporates external grounding or cross-model evidence.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!