2601.16527v1 Jan 23, 2026 cs.LG

피상적인 학습 제거를 넘어: 멀티모달 LLM에서 환각 현상에 대한 정확도 기반의 강력한 제거 방법

Beyond Superficial Unlearning: Sharpness-Aware Robust Erasure of Hallucinations in Multimodal LLMs

Yu Tian
Yu Tian
Citations: 35
h-index: 4
Zhen Bi
Zhen Bi
Citations: 3
h-index: 1
Xiang Chen
Xiang Chen
Citations: 0
h-index: 0
Xianya Fang
Xianya Fang
Citations: 0
h-index: 0
Fei Ren
Fei Ren
Citations: 1,869
h-index: 4
Haiyang Yu
Haiyang Yu
Citations: 15
h-index: 3
Sheng-Jun Huang
Sheng-Jun Huang
Citations: 1
h-index: 1

멀티모달 LLM은 강력하지만 객체 환각 현상에 취약하여 신뢰성을 저해할 수 있습니다. 최근의 학습 제거 방법들은 이러한 문제를 완화하려고 시도하지만, 우리는 중요한 결함, 즉 구조적 취약성을 발견했습니다. 표준적인 제거 방법이 표면적인 억제만 달성하며, 모델을 날카로운 최솟값에 가두어 경량 재학습 후 환각 현상이 파괴적으로 재발생한다는 것을 경험적으로 입증했습니다. 기하학적 안정성을 확보하기 위해, 우리는 SARE를 제안합니다. SARE는 학습 제거를 목표 지향적인 최소-최대 최적화 문제로 정의하고, 환각 개념 주변의 손실 지형을 명시적으로 평탄화하기 위해 Targeted-SAM 메커니즘을 사용합니다. 우리 프레임워크는 시뮬레이션된 최악의 경우 파라미터 변화에 따른 환각 현상을 억제함으로써, 가중치 변화에 강한 강력한 제거를 보장합니다. 광범위한 실험 결과, SARE는 일반적인 생성 품질을 유지하면서 제거 효과 측면에서 기존 방법보다 훨씬 뛰어난 성능을 보이는 것으로 나타났습니다. 특히, SARE는 재학습 및 파라미터 업데이트에 대한 지속적인 환각 현상 억제를 유지하여 기하학적 안정화의 효과를 검증합니다.

Original Abstract

Multimodal LLMs are powerful but prone to object hallucinations, which describe non-existent entities and harm reliability. While recent unlearning methods attempt to mitigate this, we identify a critical flaw: structural fragility. We empirically demonstrate that standard erasure achieves only superficial suppression, trapping the model in sharp minima where hallucinations catastrophically resurge after lightweight relearning. To ensure geometric stability, we propose SARE, which casts unlearning as a targeted min-max optimization problem and uses a Targeted-SAM mechanism to explicitly flatten the loss landscape around hallucinated concepts. By suppressing hallucinations under simulated worst-case parameter perturbations, our framework ensures robust removal stable against weight shifts. Extensive experiments demonstrate that SARE significantly outperforms baselines in erasure efficacy while preserving general generation quality. Crucially, it maintains persistent hallucination suppression against relearning and parameter updates, validating the effectiveness of geometric stabilization.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!