2601.13262v1 Jan 19, 2026 cs.AI

CURE-Med: 다국어 의료 추론을 위한 커리큘럼 기반 강화학습

CURE-Med: Curriculum-Informed Reinforcement Learning for Multilingual Medical Reasoning

Eric Onyame
Eric Onyame
Citations: 6
h-index: 1
Akash Ghosh
Akash Ghosh
Citations: 444
h-index: 8
Subhadip Baidya
Subhadip Baidya
Citations: 12
h-index: 2
Chirag Agarwal
Chirag Agarwal
Citations: 10
h-index: 2
Sriparna Saha
Sriparna Saha
Citations: 1,310
h-index: 9
Xiuyi Chen
Xiuyi Chen
Citations: 204
h-index: 6

거대 언어 모델(LLM)은 단일 언어의 수학 및 상식 추론에서는 우수한 성능을 보여주었지만, 다국어 의료 추론 애플리케이션에서는 여전히 신뢰성이 떨어져 다국어 헬스케어 환경에서의 도입을 저해하고 있습니다. 우리는 이를 해결하기 위해 먼저 암하라어, 요루바어, 스와힐리어와 같은 소외된 언어를 포함한 13개 언어에 걸쳐, 검증 가능한 단일 정답을 가진 개방형 추론 질의로 구성된 고품질 다국어 의료 추론 데이터셋인 CUREMED-BENCH를 소개합니다. 이 데이터셋을 바탕으로, 우리는 논리적 정확성과 언어적 안정성을 동시에 향상시키기 위해 코드 스위칭을 고려한 지도 미세 조정과 그룹 상대 정책 최적화(GRPO)를 통합한 커리큘럼 기반 강화학습 프레임워크인 CURE-MED를 제안합니다. 13개 언어 전반에 걸쳐 우리의 접근 방식은 강력한 베이스라인 모델들을 일관되게 능가하며 효과적인 확장성을 보여주었습니다. 7B 파라미터 모델에서는 85.21%의 언어 일관성과 54.35%의 논리적 정확성을, 32B 파라미터 모델에서는 94.96%의 언어 일관성과 70.04%의 논리적 정확성을 달성했습니다. 이러한 결과는 LLM에서의 신뢰할 수 있고 공평한 다국어 의료 추론을 뒷받침합니다. 코드와 데이터셋은 https://cure-med.github.io/ 에서 확인할 수 있습니다.

Original Abstract

While large language models (LLMs) have shown to perform well on monolingual mathematical and commonsense reasoning, they remain unreliable for multilingual medical reasoning applications, hindering their deployment in multilingual healthcare settings. We address this by first introducing CUREMED-BENCH, a high-quality multilingual medical reasoning dataset with open-ended reasoning queries with a single verifiable answer, spanning thirteen languages, including underrepresented languages such as Amharic, Yoruba, and Swahili. Building on this dataset, we propose CURE-MED, a curriculum-informed reinforcement learning framework that integrates code-switching-aware supervised fine-tuning and Group Relative Policy Optimization to jointly improve logical correctness and language stability. Across thirteen languages, our approach consistently outperforms strong baselines and scales effectively, achieving 85.21% language consistency and 54.35% logical correctness at 7B parameters, and 94.96% language consistency and 70.04% logical correctness at 32B parameters. These results support reliable and equitable multilingual medical reasoning in LLMs. The code and dataset are available at https://cure-med.github.io/

6 Citations
0 Influential
4.5 Altmetric
28.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!