LatentAudit: 검증 가능한 배포를 위한 검색 증강 생성 모델의 실시간 화이트박스 충실도 모니터링
LatentAudit: Real-Time White-Box Faithfulness Monitoring for Retrieval-Augmented Generation with Verifiable Deployment
검색 증강 생성(RAG)은 환각 현상을 완화하지만 완전히 제거하지는 않습니다. 배포된 시스템은 추론 시점에 검색된 증거가 실제로 답변을 뒷받침하는지 판단해야 합니다. 본 논문에서는 LatentAudit을 소개합니다. 이는 공개 가중치 생성기에서 중간~후반 잔차 스트림 활성화 값을 수집하고, 이러한 활성화 값과 증거 표현 사이의 마할라노비스 거리를 측정하는 화이트박스 감사 도구입니다. 이 방법은 추가적인 판단 모델이 필요 없으며, 생성 시간에 실행되며, 소량의 보류 데이터 세트를 사용하여 교정할 수 있는 간단한 2차 규칙을 사용합니다. 잔차 스트림의 기하학적 구조가 유용한 충실도 신호를 담고 있으며, 이 신호는 아키텍처 변경 및 현실적인 검색 실패에도 견고하며, 동일한 규칙은 공개 검증에 적합하다는 것을 보여줍니다. Llama-3-8B 모델을 사용하여 PubMedQA 데이터셋에서 LatentAudit은 0.942의 AUROC 값을 달성했으며, 0.77ms의 오버헤드를 발생시킵니다. 세 가지 질의응답 벤치마크와 다섯 가지 모델 패밀리(Llama-2/3, Qwen-2.5/3, Mistral)에서 이 모니터링 도구는 안정적인 성능을 유지합니다. 모순, 검색 실패, 부분적 지원 노이즈를 포함하는 엄격한 테스트에서 PubMedQA 데이터셋에서 0.9566~0.9815의 AUROC 값을, HotpotQA 데이터셋에서 0.9142~0.9315의 AUROC 값을 달성했습니다. 16비트 고정 소수점 정밀도에서 이 감사 규칙은 FP16 AUROC의 99.8%를 유지하여 모델 가중치나 활성화 값을 공개하지 않고 Groth16 기반의 공개 검증을 가능하게 합니다. 이러한 결과들은 잔차 스트림 기하학적 구조를 실시간 RAG 충실도 모니터링 및 선택적인 검증 가능한 배포를 위한 실용적인 기반으로 제시합니다.
Retrieval-augmented generation (RAG) mitigates hallucination but does not eliminate it: a deployed system must still decide, at inference time, whether its answer is actually supported by the retrieved evidence. We introduce LatentAudit, a white-box auditor that pools mid-to-late residual-stream activations from an open-weight generator and measures their Mahalanobis distance to the evidence representation. The resulting quadratic rule requires no auxiliary judge model, runs at generation time, and is simple enough to calibrate on a small held-out set. We show that residual-stream geometry carries a usable faithfulness signal, that this signal survives architecture changes and realistic retrieval failures, and that the same rule remains amenable to public verification. On PubMedQA with Llama-3-8B, LatentAudit reaches 0.942 AUROC with 0.77,ms overhead. Across three QA benchmarks and five model families (Llama-2/3, Qwen-2.5/3, Mistral), the monitor remains stable; under a four-way stress test with contradictions, retrieval misses, and partial-support noise, it reaches 0.9566--0.9815 AUROC on PubMedQA and 0.9142--0.9315 on HotpotQA. At 16-bit fixed-point precision, the audit rule preserves 99.8% of the FP16 AUROC, enabling Groth16-based public verification without revealing model weights or activations. Together, these results position residual-stream geometry as a practical basis for real-time RAG faithfulness monitoring and optional verifiable deployment.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.