추론할 것인가 말 것인가: 의료 질의응답에서의 선택적 사고 사슬
To Reason or Not to: Selective Chain-of-Thought in Medical Question Answering
목적: 정확도를 유지하면서 불필요한 추론을 피함으로써 대형 언어 모델(LLM)을 활용한 의료 질의응답(MedQA)의 효율성을 향상시킨다. 방법: 우리는 질문이 추론을 필요로 하는지 먼저 예측하고 필요할 때만 논리적 근거를 생성하는 추론 시점(inference-time) 전략인 선택적 사고 사슬(Selective CoT)을 제안한다. 4개의 생의학 QA 벤치마크(HeadQA, MedQA-USMLE, MedMCQA, PubMedQA)에서 두 개의 오픈 소스 LLM(Llama-3.1-8B 및 Qwen-2.5-7B)을 평가했다. 평가 지표에는 정확도, 생성된 총 토큰 수, 추론 시간이 포함되었다. 결과: 선택적 CoT는 최소한의 정확도 손실($\leq$4\%)만으로 추론 시간을 13~45%, 토큰 사용량을 8~47% 감소시켰다. 일부 모델-작업 쌍에서는 표준 CoT보다 더 높은 정확도와 향상된 효율성을 모두 달성했다. 고정 길이 CoT와 비교했을 때, 선택적 CoT는 훨씬 낮은 계산 비용으로 비슷하거나 더 우수한 정확도에 도달했다. 고찰: 선택적 CoT는 유익할 때만 명시적 추론을 실행함으로써 추론 깊이와 효율성의 균형을 동적으로 유지하고, 해석 가능성을 보존하면서 단순 기억형(recall-type) 질문에서 발생하는 중복을 줄인다. 결론: 선택적 CoT는 의료 QA를 위한 간단하고 모델에 구애받지 않으며 비용 효율적인 접근 방식을 제공하며, 질문의 복잡성에 맞게 추론 노력을 조정하여 LLM 기반 임상 시스템의 실세계 배포 가능성을 향상시킨다.
Objective: To improve the efficiency of medical question answering (MedQA) with large language models (LLMs) by avoiding unnecessary reasoning while maintaining accuracy. Methods: We propose Selective Chain-of-Thought (Selective CoT), an inference-time strategy that first predicts whether a question requires reasoning and generates a rationale only when needed. Two open-source LLMs (Llama-3.1-8B and Qwen-2.5-7B) were evaluated on four biomedical QA benchmarks-HeadQA, MedQA-USMLE, MedMCQA, and PubMedQA. Metrics included accuracy, total generated tokens, and inference time. Results: Selective CoT reduced inference time by 13-45% and token usage by 8-47% with minimal accuracy loss ($\leq$4\%). In some model-task pairs, it achieved both higher accuracy and greater efficiency than standard CoT. Compared with fixed-length CoT, Selective CoT reached similar or superior accuracy at substantially lower computational cost. Discussion: Selective CoT dynamically balances reasoning depth and efficiency by invoking explicit reasoning only when beneficial, reducing redundancy on recall-type questions while preserving interpretability. Conclusion: Selective CoT provides a simple, model-agnostic, and cost-effective approach for medical QA, aligning reasoning effort with question complexity to enhance real-world deployability of LLM-based clinical systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.