2601.09446v1 Jan 14, 2026 cs.CL

논리적 추론을 위한 언어 모델의 기호 번역 개선

Improving Symbolic Translation of Language Models for Logical Reasoning

Ramya Keerthy Thatikonda
Ramya Keerthy Thatikonda
Citations: 22
h-index: 3
Jiuzhou Han
Jiuzhou Han
Citations: 295
h-index: 6
W. Buntine
W. Buntine
Citations: 1,780
h-index: 18
Ehsan Shareghi
Ehsan Shareghi
Citations: 99
h-index: 6

형식 언어는 연역적 논리 추론에 적합하며, 자연어(NL)를 1차 논리(FOL)로 변환하고 외부 솔버를 사용하는 언어 모델(LM)은 검증 가능하고 따라서 신뢰할 수 있는 추론 시스템을 구축할 수 있습니다. 그러나 작은 LM은 종종 이 번역 작업에 어려움을 겪으며, 서식 및 번역 오류로 인해 부정확한 기호 출력을 생성하는 경우가 많습니다. 기존 접근 방식은 일반적으로 이러한 오류를 수정하기 위해 자기 반복을 사용하지만, 이러한 방법은 기반 모델의 능력에 크게 의존합니다. 이를 해결하기 위해, 우리는 먼저 일반적인 오류를 분류하고, 대규모 언어 모델이 생성한 데이터를 사용하여 작은 LM을 미세 조정했습니다. 평가는 정의된 오류 범주를 사용하여 수행되었습니다. 우리는 추론을 두 단계, 즉 술어 생성 및 FOL 번역으로 나누는 점진적 추론을 도입하여 모델 동작에 대한 더 큰 제어력을 제공하고, 술어 메트릭으로 측정되는 생성 품질을 향상시켰습니다. 이러한 분해 프레임워크는 또한 술어 산성 오류를 대상으로 하는 검증 모듈을 사용하여 성능을 더욱 향상시킬 수 있습니다. 본 연구는 네 개의 논리 추론 데이터 세트를 사용하여 세 가지 모델 패밀리를 평가했습니다. 포괄적인 미세 조정, 점진적 추론 및 검증 모듈은 오류율을 줄이고, 술어 적용 범위를 넓히며, 작은 LM의 추론 성능을 향상시켜 신뢰할 수 있고 접근 가능한 기호 추론 시스템 개발에 한 걸음 더 다가갔습니다.

Original Abstract

The use of formal language for deductive logical reasoning aligns well with language models (LMs), where translating natural language (NL) into first-order logic (FOL) and employing an external solver results in a verifiable and therefore reliable reasoning system. However, smaller LMs often struggle with this translation task, frequently producing incorrect symbolic outputs due to formatting and translation errors. Existing approaches typically rely on self-iteration to correct these errors, but such methods depend heavily on the capabilities of the underlying model. To address this, we first categorize common errors and fine-tune smaller LMs using data synthesized by large language models. The evaluation is performed using the defined error categories. We introduce incremental inference, which divides inference into two stages, predicate generation and FOL translation, providing greater control over model behavior and enhancing generation quality as measured by predicate metrics. This decomposition framework also enables the use of a verification module that targets predicate-arity errors to further improve performance. Our study evaluates three families of models across four logical-reasoning datasets. The comprehensive fine-tuning, incremental inference, and verification modules reduce error rates, increase predicate coverage, and improve reasoning performance for smaller LMs, moving us closer to developing reliable and accessible symbolic-reasoning systems.

0 Citations
0 Influential
9 Altmetric
45.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!