ClinDet-Bench: 회피를 넘어, 임상 의사 결정에서 LLM의 판단 가능성 평가
ClinDet-Bench: Beyond Abstention, Evaluating Judgment Determinability of LLMs in Clinical Decision-Making
임상적 결정은 종종 불완전한 정보 하에서 이루어져야 합니다. 임상 전문가는 가용한 정보가 판단에 충분한지 판단해야 하며, 이는 조기 결론 도출과 불필요한 회피 모두 환자 안전을 위협할 수 있습니다. 이러한 능력을 평가하기 위해, 우리는 불완전한 정보 시나리오를 판단 가능 조건과 판단 불가능 조건으로 분해하는 임상 점수 시스템 기반의 벤치마크인 ClinDet-Bench를 개발했습니다. 판단 가능성을 파악하려면 누락된 정보에 대한 모든 가설, 심지어 가능성이 낮은 가설까지 고려하고, 결론이 이러한 가설 전반에 걸쳐 유효한지 확인해야 합니다. 우리의 연구 결과, 최근의 LLM은 불완전한 정보 하에서 판단 가능성을 파악하는 데 실패하여, 때로는 조기에 판단을 내리거나, 지나치게 회피하는 경향을 보입니다. 이는 완전한 정보가 주어질 경우, LLM이 기본 점수 체계에 대한 이해도가 높고 좋은 성능을 보이는 것과 대조됩니다. 이러한 결과는 현재의 벤치마크가 임상 환경에서 LLM의 안전성을 평가하기에 충분하지 않음을 시사합니다. ClinDet-Bench는 판단 가능성 인식을 평가하는 프레임워크를 제공하며, 이는 적절한 회피를 가능하게 하고, 의학 및 기타 고위험 영역에 적용될 수 있으며, 공개적으로 제공됩니다.
Clinical decisions are often required under incomplete information. Clinical experts must identify whether available information is sufficient for judgment, as both premature conclusion and unnecessary abstention can compromise patient safety. To evaluate this capability of large language models (LLMs), we developed ClinDet-Bench, a benchmark based on clinical scoring systems that decomposes incomplete-information scenarios into determinable and undeterminable conditions. Identifying determinability requires considering all hypotheses about missing information, including unlikely ones, and verifying whether the conclusion holds across them. We find that recent LLMs fail to identify determinability under incomplete information, producing both premature judgments and excessive abstention, despite correctly explaining the underlying scoring knowledge and performing well under complete information. These findings suggest that existing benchmarks are insufficient to evaluate the safety of LLMs in clinical settings. ClinDet-Bench provides a framework for evaluating determinability recognition, leading to appropriate abstention, with potential applicability to medicine and other high-stakes domains, and is publicly available.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.