2601.12471v2 Jan 18, 2026 cs.CL

언제 회피해야 하는가: 임상적 불확실성 하에서의 의료용 LLM

Knowing When to Abstain: Medical LLMs Under Clinical Uncertainty

Sravanthi Machcha
Sravanthi Machcha
Citations: 3
h-index: 1
Sushrita Yerra
Sushrita Yerra
Citations: 67
h-index: 2
Sahil Gupta
Sahil Gupta
Citations: 117
h-index: 4
Aishwarya Sahoo
Aishwarya Sahoo
Citations: 11
h-index: 2
Sharmin Sultana
Sharmin Sultana
Citations: 8
h-index: 2
Hong Yu
Hong Yu
Citations: 76
h-index: 4
Zonghai Yao
Zonghai Yao
UMASS Amherst
Citations: 714
h-index: 17

현재 대규모 언어 모델(LLM)의 평가는 정확도를 최우선으로 하지만, 실제 환경 및 안전이 중요한 응용 분야에서는 불확실할 때 회피하는 능력 또한 신뢰성 있는 배포를 위해 매우 중요합니다. 본 연구에서는 의료 분야의 객관식 문제 응답(MCQA)에서 회피 기능을 평가하기 위한 통합 벤치마크 및 평가 프로토콜인 MedAbstain을 소개합니다. MedAbstain은 conformal prediction, 적대적 질문 변형, 그리고 명시적인 회피 옵션을 통합하여, 이산적 선택 문제를 일반화한 agentic action selection에 적용될 수 있습니다. 오픈 소스 및 클로즈드 소스 LLM에 대한 체계적인 평가는 최첨단 고정확도 모델조차도 불확실할 때 회피하지 못하는 경우가 많다는 것을 보여줍니다. 주목할 만한 점은, 명시적인 회피 옵션을 제공하면 모델의 불확실성을 지속적으로 증가시키고 더 안전한 회피를 가능하게 하며, 입력 변형보다 훨씬 효과적이라는 것입니다. 반면, 모델 크기를 늘리거나 고급 프롬프팅 기술을 적용하는 것은 큰 개선을 가져오지 못했습니다. 이러한 결과는 신뢰할 수 있는 LLM 배포를 위한 회피 메커니즘의 핵심적인 역할을 강조하며, 고위험 응용 분야에서의 안전성을 향상시키기 위한 실질적인 지침을 제공합니다.

Original Abstract

Current evaluation of large language models (LLMs) overwhelmingly prioritizes accuracy; however, in real-world and safety-critical applications, the ability to abstain when uncertain is equally vital for trustworthy deployment. We introduce MedAbstain, a unified benchmark and evaluation protocol for abstention in medical multiple-choice question answering (MCQA) -- a discrete-choice setting that generalizes to agentic action selection -- integrating conformal prediction, adversarial question perturbations, and explicit abstention options. Our systematic evaluation of both open- and closed-source LLMs reveals that even state-of-the-art, high-accuracy models often fail to abstain with uncertain. Notably, providing explicit abstention options consistently increases model uncertainty and safer abstention, far more than input perturbations, while scaling model size or advanced prompting brings little improvement. These findings highlight the central role of abstention mechanisms for trustworthy LLM deployment and offer practical guidance for improving safety in high-stakes applications.

5 Citations
0 Influential
8.5 Altmetric
47.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!