ConvexBench: 대규모 언어 모델(LLM)이 볼록 함수를 인식할 수 있는가?
ConvexBench: Can LLMs Recognize Convex Functions?
볼록 분석은 다양한 응용 분야를 가진 현대 수학의 한 분야입니다. 대규모 언어 모델(LLM)이 연구 수준의 수학 및 과학 분야를 자동화하기 시작하면서, LLM이 볼록성을 이해하고 추론할 수 있는 능력을 보여주는 것이 중요합니다. 본 논문에서는 심층적인 함수 결합 하에서, LLM이 기호적인 목적 함수의 볼록성을 식별할 수 있는지 테스트하기 위한 확장 가능하고 기계적으로 검증 가능한 벤치마크인 ConvexBench( extit{CB})를 소개합니다. 최첨단 LLM에 대한 실험 결과, 심층적인 추론 능력의 격차가 뚜렷하게 나타났습니다. 즉, 깊이가 증가함에 따라 성능이 급격히 저하되어, 깊이 2에서 F1 점수가 1.0인 반면, 깊이 100에서는 약 0.2로 떨어집니다. 모델의 추론 과정을 분석한 결과, 두 가지 실패 모드가 관찰되었습니다. 즉, extit{파싱 실패}와 extit{게으른 추론}입니다. 이러한 한계를 극복하기 위해, 본 논문에서는 (i) 외부 도구를 사용하여 추상 구문 트리(AST)를 생성하는 파싱 작업을 분산시키고, (ii) 각 중간 부분 표현에 대해 집중적인 컨텍스트를 통해 재귀적인 추론을 수행하는 에이전트 기반의 분할 정복 프레임워크를 제안합니다. 이 프레임워크는 심층적인 결합 실패를 안정적으로 완화하여, 큰 깊이에서도 상당한 성능 향상을 달성합니다 (예: 깊이 100에서 F1 점수 = 1.0).
Convex analysis is a modern branch of mathematics with many applications. As Large Language Models (LLMs) start to automate research-level math and sciences, it is important for LLMs to demonstrate the ability to understand and reason with convexity. We introduce \cb, a scalable and mechanically verifiable benchmark for testing \textit{whether LLMs can identify the convexity of a symbolic objective under deep functional composition.} Experiments on frontier LLMs reveal a sharp compositional reasoning gap: performance degrades rapidly with increasing depth, dropping from an F1-score of $1.0$ at depth $2$ to approximately $0.2$ at depth $100$. Inspection of models' reasoning traces indicates two failure modes: \textit{parsing failure} and \textit{lazy reasoning}. To address these limitations, we propose an agentic divide-and-conquer framework that (i) offloads parsing to an external tool to construct an abstract syntax tree (AST) and (ii) enforces recursive reasoning over each intermediate sub-expression with focused context. This framework reliably mitigates deep-composition failures, achieving substantial performance improvement at large depths (e.g., F1-Score $= 1.0$ at depth $100$).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.