NeuroProlog: 칵테일 효과를 활용한 신경-기호 수학적 추론을 위한 다중 작업 미세 조정
NeuroProlog: Multi-Task Fine-Tuning for Neurosymbolic Mathematical Reasoning via the Cocktail Effect
대규모 언어 모델(LLM)은 자연어 처리 작업에서 뛰어난 성능을 보이지만, 수학적 추론에서는 여전히 신뢰성이 떨어져, 유창하지만 논리적으로 일관성이 없는 해답을 자주 생성합니다. 본 논문에서는 검증 가능한 추론을 보장하기 위해 수학 문제 풀이 과정을 형식적 검증 기능을 갖춘 실행 가능한 Prolog 프로그램으로 컴파일하는 신경-기호 프레임워크인 **NeuroProlog**를 제시합니다. 우리는 세 가지 상호 보완적인 목표를 단일화된 기호 표현 공간에서 공동으로 최적화하는 다중 작업 칵테일 학습 전략을 제안합니다. 이는 (i) 수학 공식-규칙 변환 (KB), (ii) 자연어-프로그램 합성 (SOLVE), 그리고 (iii) 프로그램-답변 정렬입니다. 이러한 공동 감독은 긍정적인 전이 효과를 가능하게 하며, 공식 변환에 대한 기호적 이해가 복합적인 추론 능력 향상에 직접적으로 기여합니다. 추론 단계에서, 우리는 세분화된 오류 분류 체계를 갖춘 실행 기반 디코딩 파이프라인을 도입하여 반복적인 프로그램 수정 기능을 제공하고, 모델의 자체 디버깅 능력을 정량화합니다. GSM8K 데이터셋에 대한 4가지 규모 (3B~32B 파라미터)의 모델에 대한 종합적인 평가 결과, 칵테일 학습이 일관된 성능 향상을 보여줍니다. 구체적으로, 칵테일 학습은 단일 작업 기준 모델에 비해 +5.23% (Qwen-32B, p < 0.01), +3.43% (GPT-OSS-20B, p < 0.01), +5.54% (Llama-3B, p < 0.05)의 상당한 정확도 향상을 달성했습니다. 체계적인 오류 분석 결과, 모델 규모에 따른 학습 동역학이 관찰되었으며, 32B 규모 모델에서는 수정 불가능한 타입 오류 (12% 수정률)가 수정 가능한 도메인 오류 (96% 수정률)로 변환되어 전체 수정률이 92.7%에 달했습니다. 8B 규모 모델에서는 동일한 학습 과정이 구문 오류를 제거하지만 의미 오류를 발생시켜, 타입 안전한 기호 추론을 위한 중요한 능력 임계값을 드러냅니다.
Large Language Models (LLMs) achieve strong performance on natural language tasks but remain unreliable in mathematical reasoning, frequently generating fluent yet logically inconsistent solutions. We present \textbf{NeuroProlog}, a neurosymbolic framework that ensures verifiable reasoning by compiling math word problems into executable Prolog programs with formal verification guarantees. We propose a multi-task Cocktail training strategy that jointly optimizes three synergistic objectives in a unified symbolic representation space: (i) mathematical formula-to-rule translation (KB), (ii) natural language-to-program synthesis (SOLVE), and (iii) program-answer alignment. This joint supervision enables positive transfer, where symbolic grounding in formula translation directly improves compositional reasoning capabilities. At inference, we introduce an execution-guided decoding pipeline with fine-grained error taxonomy that enables iterative program repair and quantifies model self-debugging capacity. Comprehensive evaluation on GSM8K across four model scales (3B--32B parameters) demonstrates consistent improvements: cocktail training achieves significant accuracy gains of +5.23\% (Qwen-32B, $p < 0.01$), +3.43\% (GPT-OSS-20B, $p < 0.01$), and +5.54\% (Llama-3B, $p < 0.05$) over single-task baselines.Systematic error analysis reveals scale-dependent learning dynamics: at 32B scale, cocktail training transforms unfixable type errors (12\% repair rate) into correctable domain errors (96\% repair rate), achieving 92.7\% overall correction; at 8B scale, the same training eliminates syntactic errors but introduces semantic failures, revealing a critical capacity threshold for type-safe symbolic reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.