2602.03950v2 Feb 03, 2026 cs.AI

실행 기반 추론 증강을 통한 LLM의 수학 문제 해결 능력 향상

Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation

Aditya Basarkar
Aditya Basarkar
Citations: 1
h-index: 1
Benyamin T. Tabarsi
Benyamin T. Tabarsi
Citations: 42
h-index: 4
Tiffany Barnes
Tiffany Barnes
Citations: 1
h-index: 1
Dongkuan Xu
Dongkuan Xu
Citations: 5
h-index: 1

수학 문제 해결은 인공지능의 추론 능력을 평가하는 기본적인 지표이며, 교육, 과학, 공학 등 신뢰성 있는 기호 추론이 필수적인 분야의 응용을 위한 관문입니다. 최근 멀티 에이전트 기반 LLM 시스템의 발전은 수학적 추론 능력을 향상시켰지만, 여전히 추론 과정을 안정적으로 수정할 수 있는 표현이 부족합니다. 기존 에이전트는 이전 단계를 수정할 수 없는 경직된 순차적 파이프라인으로 작동하거나, 오류를 식별하고 수정하는 데 실패할 수 있는 휴리스틱 기반 자기 평가에 의존합니다. 또한, 프로그래밍 관련 맥락은 언어 모델을 산만하게 만들고 정확도를 저하시킬 수 있습니다. 이러한 문제점을 해결하기 위해, 우리는 Iteratively Improved Program Construction (IIPC)라는 추론 방법을 소개합니다. IIPC는 프로그래밍 추론 체인을 반복적으로 개선하고, 기본 LLM의 Chain-of-thought 능력을 활용하여 실행 피드백을 결합함으로써 높은 수준의 맥락 집중력을 유지합니다. IIPC는 여러 기본 LLM에서 수행된 다양한 추론 벤치마크에서 경쟁적인 접근 방식보다 우수한 성능을 보입니다. 모든 코드 및 구현은 오픈 소스로 공개됩니다.

Original Abstract

Mathematical problem solving is a fundamental benchmark for assessing the reasoning capabilities of artificial intelligence and a gateway to applications in education, science, and engineering where reliable symbolic reasoning is essential. Although recent advances in multi-agent LLM-based systems have enhanced their mathematical reasoning capabilities, they still lack a reliably revisable representation of the reasoning process. Existing agents either operate in rigid sequential pipelines that cannot correct earlier steps or rely on heuristic self-evaluation that can fail to identify and fix errors. In addition, programmatic context can distract language models and degrade accuracy. To address these gaps, we introduce Iteratively Improved Program Construction (IIPC), a reasoning method that iteratively refines programmatic reasoning chains and combines execution feedback with the native Chain-of-thought abilities of the base LLM to maintain high-level contextual focus. IIPC surpasses competing approaches in the majority of reasoning benchmarks on multiple base LLMs. All code and implementations are released as open source.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!