다중 모드 AI 환각의 검증 가능성 제어
Steering the Verifiability of Multimodal AI Hallucinations
다중 모드 대규모 언어 모델(MLLM)에 의해 구동되는 AI 애플리케이션은 환각 현상을 일으키는 경향이 있으며, 이는 사용자에게 상당한 위험을 초래할 수 있습니다. 중요한 점은 이러한 환각이 모두 동일한 문제를 야기하지 않는다는 것입니다. 일부 환각 내용은 사용자가 쉽게 감지할 수 있지만(명백한 환각), 다른 내용은 종종 간과되거나 더 많은 검증 노력이 필요합니다(미묘한 환각). 이는 다중 모드 AI 환각이 검증 가능성 측면에서 상당한 차이를 보인다는 것을 의미합니다. 그러나 다양한 보안 및 사용성 요구 사항을 가진 AI 애플리케이션에서 이러한 특성을 제어하는 방법에 대한 연구는 아직 부족합니다. 이러한 간극을 해소하기 위해, 우리는 AI가 생성한 4,470개의 환각에 대한 인간의 반응 데이터를 기반으로 데이터셋을 구축하고, 사용자가 판단한 검증 가능성에 따라 이러한 환각을 명백한 유형과 미묘한 유형으로 분류했습니다. 또한, 우리는 명백한 환각과 미묘한 환각에 대해 별도의 탐침을 학습하는 활성화 공간 개입 방법을 제안합니다. 우리의 연구 결과는 명백한 환각과 미묘한 환각이 서로 다른 개입 탐침을 유발한다는 것을 보여주며, 이를 통해 모델의 검증 가능성을 세밀하게 제어할 수 있습니다. 실험 결과는 이 접근 방식의 효과성을 입증하며, 특정 개입은 해당 검증 가능성을 조절하는 데 더 우수한 성능을 보입니다. 또한, 이러한 개입을 단순히 혼합하는 것만으로도 다양한 시나리오에 필요한 검증 가능성을 유연하게 제어할 수 있습니다.
AI applications driven by multimodal large language models (MLLMs) are prone to hallucinations and pose considerable risks to human users. Crucially, such hallucinations are not equally problematic: some hallucination contents could be detected by human users(i.e., obvious hallucinations), while others are often missed or require more verification effort(i.e., elusive hallucinations). This indicates that multimodal AI hallucinations vary significantly in their verifiability. Yet, little research has explored how to control this property for AI applications with diverse security and usability demands. To address this gap, we construct a dataset from 4,470 human responses to AI-generated hallucinations and categorize these hallucinations into obvious and elusive types based on their verifiability by human users. Further, we propose an activation-space intervention method that learns separate probes for obvious and elusive hallucinations. We reveal that obvious and elusive hallucinations elicit different intervention probes, allowing for fine-grained control over the model's verifiability. Empirical results demonstrate the efficacy of this approach and show that targeted interventions yield superior performance in regulating corresponding verifiability. Moreover, simply mixing these interventions enables flexible control over the verifiability required for different scenarios.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.