2602.20130v1 Feb 23, 2026 cs.CL

추론할 것인가 말 것인가: 의료 질의응답에서의 선택적 사고 사슬

To Reason or Not to: Selective Chain-of-Thought in Medical Question Answering

Zaifu Zhan
Zaifu Zhan
Citations: 251
h-index: 8
Min Zeng
Min Zeng
Citations: 1
h-index: 1
Yiran Song
Yiran Song
Citations: 9
h-index: 2
Xiaoyi Chen
Xiaoyi Chen
Citations: 266
h-index: 8
Yu Hou
Yu Hou
Citations: 64
h-index: 5
Yifan Wu
Yifan Wu
Citations: 135
h-index: 5
Yangdong Ruan
Yangdong Ruan
Citations: 4
h-index: 1
Shuang Zhou
Shuang Zhou
Citations: 175
h-index: 5
Rui Zhang
Rui Zhang
Citations: 29
h-index: 3

목적: 정확도를 유지하면서 불필요한 추론을 피함으로써 대형 언어 모델(LLM)을 활용한 의료 질의응답(MedQA)의 효율성을 향상시킨다. 방법: 우리는 질문이 추론을 필요로 하는지 먼저 예측하고 필요할 때만 논리적 근거를 생성하는 추론 시점(inference-time) 전략인 선택적 사고 사슬(Selective CoT)을 제안한다. 4개의 생의학 QA 벤치마크(HeadQA, MedQA-USMLE, MedMCQA, PubMedQA)에서 두 개의 오픈 소스 LLM(Llama-3.1-8B 및 Qwen-2.5-7B)을 평가했다. 평가 지표에는 정확도, 생성된 총 토큰 수, 추론 시간이 포함되었다. 결과: 선택적 CoT는 최소한의 정확도 손실($\leq$4\%)만으로 추론 시간을 13~45%, 토큰 사용량을 8~47% 감소시켰다. 일부 모델-작업 쌍에서는 표준 CoT보다 더 높은 정확도와 향상된 효율성을 모두 달성했다. 고정 길이 CoT와 비교했을 때, 선택적 CoT는 훨씬 낮은 계산 비용으로 비슷하거나 더 우수한 정확도에 도달했다. 고찰: 선택적 CoT는 유익할 때만 명시적 추론을 실행함으로써 추론 깊이와 효율성의 균형을 동적으로 유지하고, 해석 가능성을 보존하면서 단순 기억형(recall-type) 질문에서 발생하는 중복을 줄인다. 결론: 선택적 CoT는 의료 QA를 위한 간단하고 모델에 구애받지 않으며 비용 효율적인 접근 방식을 제공하며, 질문의 복잡성에 맞게 추론 노력을 조정하여 LLM 기반 임상 시스템의 실세계 배포 가능성을 향상시킨다.

Original Abstract

Objective: To improve the efficiency of medical question answering (MedQA) with large language models (LLMs) by avoiding unnecessary reasoning while maintaining accuracy. Methods: We propose Selective Chain-of-Thought (Selective CoT), an inference-time strategy that first predicts whether a question requires reasoning and generates a rationale only when needed. Two open-source LLMs (Llama-3.1-8B and Qwen-2.5-7B) were evaluated on four biomedical QA benchmarks-HeadQA, MedQA-USMLE, MedMCQA, and PubMedQA. Metrics included accuracy, total generated tokens, and inference time. Results: Selective CoT reduced inference time by 13-45% and token usage by 8-47% with minimal accuracy loss ($\leq$4\%). In some model-task pairs, it achieved both higher accuracy and greater efficiency than standard CoT. Compared with fixed-length CoT, Selective CoT reached similar or superior accuracy at substantially lower computational cost. Discussion: Selective CoT dynamically balances reasoning depth and efficiency by invoking explicit reasoning only when beneficial, reducing redundancy on recall-type questions while preserving interpretability. Conclusion: Selective CoT provides a simple, model-agnostic, and cost-effective approach for medical QA, aligning reasoning effort with question complexity to enhance real-world deployability of LLM-based clinical systems.

0 Citations
0 Influential
4 Altmetric
20.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!