GanitLLM: 난이도 인지 벵골어 수학적 추론: 커리큘럼 기반 GRPO
GanitLLM: Difficulty-Aware Bengali Mathematical Reasoning through Curriculum-GRPO
본 논문에서는 벵골어 수학적 추론 모델인 GanitLLM(벵골어로 수학을 의미하는 'Ganit'에서 이름이 유래)을 제시합니다. 또한 새로운 난이도 기반 벵골어 수학 데이터셋과 커리큘럼 기반 GRPO 파이프라인을 함께 소개합니다. 벵골어는 세계적으로 가장 널리 사용되는 언어 중 하나이지만, 기존 LLM들은 영어로 추론한 후 번역하거나, 다단계 벵골어 수학 문제에 대해 단순히 실패하는 경우가 많습니다. 이는 강화 학습 알고리즘이 주로 고자원 언어에 맞춰 조정되어 있기 때문이며, 저자원 환경에서는 보상 희소성으로 인해 성능이 저하될 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 강력한 평가 모델의 pass@k 값을 기반으로 자동 난이도 태그를 부여한, 엄격하게 필터링 및 정제된 벵골어 수학 데이터셋인 Ganit을 구축했습니다. 이 데이터셋을 기반으로, 우리는 다단계 훈련(SFT + GRPO)과 난이도 기반 샘플링, 그리고 형식, 수치 정확성, 벵골어 추론에 대한 검증 가능한 보상을 결합한 커리큘럼 기반 GRPO를 제안합니다. Bn-MGSM 및 Bn-MSVAMP 데이터셋에서, GanitLLM-4B는 Qwen3-4B 기준 모델 대비 각각 +8 및 +7의 정확도 향상을 보였으며, 벵골어 추론 토큰의 비율을 14%에서 88% 이상으로 증가시키고, 평균 해답 길이를 943단어에서 193단어로 줄였습니다.
We present a Bengali mathematical reasoning model called GanitLLM (named after the Bangla word for mathematics, "Ganit"), together with a new difficulty-aware Bengali math corpus and a curriculum-based GRPO pipeline. Bengali is one of the world's most widely spoken languages, yet existing LLMs either reason in English and then translate, or simply fail on multi-step Bengali math, in part because reinforcement learning recipes are tuned for high-resource languages and collapse under reward sparsity in low-resource settings. To address this, we construct Ganit, a rigorously filtered and decontaminated Bengali math dataset with automatic difficulty tags derived from the pass@k of a strong evaluator model. Building on this dataset, we propose Curriculum-GRPO, which combines multi-stage training (SFT + GRPO) with difficulty-aware sampling and verifiable rewards for format, numerical correctness, and Bengali reasoning. On Bn-MGSM and Bn-MSVAMP, GanitLLM-4B improves over its Qwen3-4B base by +8 and +7 accuracy points, respectively, while increasing the percentage of Bengali reasoning tokens from 14% to over 88% and reducing average solution length from 943 to 193 words.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.