OPT-Engine: 복잡도 확장 기반 최적화 모델링에서 LLM의 한계를 평가하는 방법
OPT-Engine: Benchmarking the Limits of LLMs in Optimization Modeling via Complexity Scaling
대규모 언어 모델(LLM)은 최적화 모델링 분야에서 놀라운 발전을 보여주었으며, 이는 새로운 방법론과 평가 벤치마크의 빠른 확장을 촉진했습니다. 그러나 자동화된 모델링 및 문제 해결 능력의 경계는 아직 명확히 이해되지 않고 있으며, 특히 복잡한 실제 세계 과제로 확장될 때 더욱 그렇습니다. 이러한 격차를 해소하기 위해, 우리는 제어 가능하고 확장 가능한 난이도 수준으로 LLM을 평가할 수 있도록 설계된 확장 가능한 벤치마크 프레임워크인 OPT-ENGINE을 제안합니다. OPT-ENGINE은 운영 연구 분야의 10가지 표준 작업을 포함하며, 선형 계획법 5가지와 혼합 정수 계획법 5가지를 다룹니다. OPT-ENGINE을 사용하여 LLM의 추론 능력을 광범위하게 연구하고, 다음 두 가지 중요한 질문에 대한 답을 찾습니다. 1) 현재 벤치마크 수준을 넘어 복잡성이 증가하는 분포 외부 최적화 작업으로 일반화할 때 LLM의 성능이 얼마나 안정적인가? 2) 문제 해석부터 솔루션 생성까지, 현재 LLM이 가장 큰 병목 현상을 겪는 단계는 언제인가? 우리의 실증적 결과는 다음과 같은 두 가지 중요한 통찰력을 제공합니다. 첫째, 외부 솔버와 통합된 추론은 작업 복잡성이 증가함에 따라 순수 텍스트 기반 추론보다 훨씬 더 높은 안정성을 보입니다. 둘째, 제약 조건의 자동화된 모델링은 주요 성능 병목 현상입니다. 이러한 결과는 고급 최적화를 위한 차세대 LLM을 개발하는 데 실질적인 지침을 제공합니다. 저희의 코드는 다음 주소에서 공개적으로 이용할 수 있습니다: extcolor{blue}{https://github.com/Cardinal-Operations/OPTEngine}.
Large Language Models (LLMs) have demonstrated impressive progress in optimization modeling, fostering a rapid expansion of new methodologies and evaluation benchmarks. However, the boundaries of their capabilities in automated formulation and problem solving remain poorly understood, particularly when extending to complex, real-world tasks. To bridge this gap, we propose OPT-ENGINE, an extensible benchmark framework designed to evaluate LLMs on optimization modeling with controllable and scalable difficulty levels. OPT-ENGINE spans 10 canonical tasks across operations research, with five Linear Programming and five Mixed-Integer Programming. Utilizing OPT-ENGINE, we conduct an extensive study of LLMs' reasoning capabilities, addressing two critical questions: 1.) Do LLMs' performance remain robust when generalizing to out-of-distribution optimization tasks that scale in complexity beyond current benchmark levels? and 2.) At what stage, from problem interpretation to solution generation, do current LLMs encounter the most significant bottlenecks? Our empirical results yield two key insights: first, tool-integrated reasoning with external solvers exhibits significantly higher robustness as task complexity escalates, while pure-text reasoning reaches a ceiling; second, the automated formulation of constraints constitutes the primary performance bottleneck. These findings provide actionable guidance for developing next-generation LLMs for advanced optimization. Our code is publicly available at \textcolor{blue}{https://github.com/Cardinal-Operations/OPTEngine}.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.