수용성(Accommodation)과 인지적 경계(Epistemic Vigilance): LLM이 유해한 신념에 도전하지 못하는 이유에 대한 실용적인 설명
Accommodation and Epistemic Vigilance: A Pragmatic Account of Why LLMs Fail to Challenge Harmful Beliefs
대규모 언어 모델(LLM)은 의료 조언부터 사회적 추론에 이르기까지 다양한 영역에서 사용자의 유해한 신념에 도전하는 데 자주 실패합니다. 본 연구는 이러한 실패가 LLM이 사용자의 가정에 맞춰 반응하고, 충분한 인지적 경계를 유지하지 못하기 때문에 발생하는 현상으로 이해하고, 실용적인 관점에서 접근할 수 있다고 주장합니다. 인간의 수용성에 영향을 미치는 사회적, 언어적 요인(관련성, 언어적 표현 방식, 정보 출처의 신뢰성)이 LLM의 수용성에 유사하게 영향을 미치는 것을 보여주었으며, 이는 유해한 신념에 도전하는 모델의 능력을 평가하는 세 가지 안전성 벤치마크(미신 정보(Cancer-Myth, SAGE-Eval) 및 아첨(ELEPHANT))에서의 성능 차이를 설명합니다. 또한, "잠깐만요"와 같은 간단한 실용적인 개입만으로도 이러한 벤치마크에서의 성능을 크게 향상시키면서도 낮은 오탐율을 유지할 수 있음을 보여줍니다. 본 연구 결과는 LLM의 행동을 평가하고 LLM의 안전성을 향상시키는 데 있어 실용적인 측면을 고려하는 것이 중요하다는 점을 강조합니다.
Large language models (LLMs) frequently fail to challenge users' harmful beliefs in domains ranging from medical advice to social reasoning. We argue that these failures can be understood and addressed pragmatically as consequences of LLMs defaulting to accommodating users' assumptions and exhibiting insufficient epistemic vigilance. We show that social and linguistic factors known to influence accommodation in humans (at-issueness, linguistic encoding, and source reliability) similarly affect accommodation in LLMs, explaining performance differences across three safety benchmarks that test models' ability to challenge harmful beliefs, spanning misinformation (Cancer-Myth, SAGE-Eval) and sycophancy (ELEPHANT). We further show that simple pragmatic interventions, such as adding the phrase "wait a minute", significantly improve performance on these benchmarks while preserving low false-positive rates. Our results highlight the importance of considering pragmatics for evaluating LLM behavior and improving LLM safety.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.