2602.01075v2 Feb 01, 2026 cs.AI

ConvexBench: 대규모 언어 모델(LLM)이 볼록 함수를 인식할 수 있는가?

ConvexBench: Can LLMs Recognize Convex Functions?

Yuheng Bu
Yuheng Bu
Citations: 149
h-index: 6
Ye Liu
Ye Liu
Citations: 282
h-index: 10
Yu Huang
Yu Huang
Citations: 235
h-index: 5
Yu-Xiang Wang
Yu-Xiang Wang
Citations: 0
h-index: 0
Yingbin Liang
Yingbin Liang
Citations: 169
h-index: 5

볼록 분석은 다양한 응용 분야를 가진 현대 수학의 한 분야입니다. 대규모 언어 모델(LLM)이 연구 수준의 수학 및 과학 분야를 자동화하기 시작하면서, LLM이 볼록성을 이해하고 추론할 수 있는 능력을 보여주는 것이 중요합니다. 본 논문에서는 심층적인 함수 결합 하에서, LLM이 기호적인 목적 함수의 볼록성을 식별할 수 있는지 테스트하기 위한 확장 가능하고 기계적으로 검증 가능한 벤치마크인 ConvexBench( extit{CB})를 소개합니다. 최첨단 LLM에 대한 실험 결과, 심층적인 추론 능력의 격차가 뚜렷하게 나타났습니다. 즉, 깊이가 증가함에 따라 성능이 급격히 저하되어, 깊이 2에서 F1 점수가 1.0인 반면, 깊이 100에서는 약 0.2로 떨어집니다. 모델의 추론 과정을 분석한 결과, 두 가지 실패 모드가 관찰되었습니다. 즉, extit{파싱 실패}와 extit{게으른 추론}입니다. 이러한 한계를 극복하기 위해, 본 논문에서는 (i) 외부 도구를 사용하여 추상 구문 트리(AST)를 생성하는 파싱 작업을 분산시키고, (ii) 각 중간 부분 표현에 대해 집중적인 컨텍스트를 통해 재귀적인 추론을 수행하는 에이전트 기반의 분할 정복 프레임워크를 제안합니다. 이 프레임워크는 심층적인 결합 실패를 안정적으로 완화하여, 큰 깊이에서도 상당한 성능 향상을 달성합니다 (예: 깊이 100에서 F1 점수 = 1.0).

Original Abstract

Convex analysis is a modern branch of mathematics with many applications. As Large Language Models (LLMs) start to automate research-level math and sciences, it is important for LLMs to demonstrate the ability to understand and reason with convexity. We introduce \cb, a scalable and mechanically verifiable benchmark for testing \textit{whether LLMs can identify the convexity of a symbolic objective under deep functional composition.} Experiments on frontier LLMs reveal a sharp compositional reasoning gap: performance degrades rapidly with increasing depth, dropping from an F1-score of $1.0$ at depth $2$ to approximately $0.2$ at depth $100$. Inspection of models' reasoning traces indicates two failure modes: \textit{parsing failure} and \textit{lazy reasoning}. To address these limitations, we propose an agentic divide-and-conquer framework that (i) offloads parsing to an external tool to construct an abstract syntax tree (AST) and (ii) enforces recursive reasoning over each intermediate sub-expression with focused context. This framework reliably mitigates deep-composition failures, achieving substantial performance improvement at large depths (e.g., F1-Score $= 1.0$ at depth $100$).

0 Citations
0 Influential
5 Altmetric
25.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!