ReLoop: 신뢰성 있는 LLM 기반 최적화를 위한 구조화된 모델링 및 행동 검증
ReLoop: Structured Modeling and Behavioral Verification for Reliable LLM-Based Optimization
대규모 언어 모델(LLM)은 자연어를 최적화 코드로 변환할 수 있지만, '침묵하는 오류'는 심각한 위험을 초래합니다. 실행 가능하지만 의미적으로 잘못된 수식을 포함하는 코드는 복합 문제에서 최대 90%의 정확성 격차를 발생시킵니다. 본 논문에서는 이러한 침묵하는 오류를 해결하기 위해 상호 보완적인 두 가지 접근 방식을 제시하는 ReLoop을 소개합니다. 구조화된 생성 방식은 코드 생성 과정을 이해, 형식화, 합성, 검증의 네 단계로 분해하여 전문가의 모델링 방식을 모방하며, 명시적인 변수 유형 추론과 자체 검증을 통해 수식 오류를 근본적으로 방지합니다. 행동 검증 방식은 생성 단계를 통과한 오류를 감지하기 위해, 외부의 '정답' 데이터 없이, 솔버 기반의 파라미터 변화에 대한 수식의 반응을 테스트하여 자체 일관성 문제를 우회합니다. 두 가지 메커니즘은 상호 보완적입니다. 구조화된 생성 방식은 복잡한 복합 문제에서 효과적이며, 행동 검증 방식은 국소적인 수식 결함이 있는 문제에서 가장 큰 기여를 합니다. IIS 기반의 진단 기능을 활용한 실행 복구와 함께, ReLoop은 가장 강력한 모델에서 정확도를 22.6%에서 31.1%로, 실행률을 72.1%에서 100.0%로 향상시켰습니다. 또한, 세 가지 패러다임(기반 모델, SFT, 강화 학습)과 세 가지 벤치마크를 아우르는 다섯 가지 모델에서 일관된 성능 향상을 보였습니다. 더불어, LLM이 가장 흔하게 오류를 발생하는 다중 제약 조건 상호 작용을 목표로 하는 190개의 복합 소매 최적화 시나리오를 포함하는 RetailOpt-190 데이터셋을 공개합니다.
Large language models (LLMs) can translate natural language into optimization code, but silent failures pose a critical risk: code that executes and returns solver-feasible solutions may encode semantically incorrect formulations, creating a feasibility-correctness gap of up to 90 percentage points on compositional problems. We introduce ReLoop, addressing silent failures from two complementary directions. Structured generation decomposes code production into a four-stage reasoning chain (understand, formalize, synthesize, verify) that mirrors expert modeling practice, with explicit variable-type reasoning and self-verification to prevent formulation errors at their source. Behavioral verification detects errors that survive generation by testing whether the formulation responds correctly to solver-based parameter perturbation, without requiring ground truth -- an external semantic signal that bypasses the self-consistency problem inherent in LLM-based code review. The two mechanisms are complementary: structured generation dominates on complex compositional problems, while behavioral verification becomes the largest single contributor on problems with localized formulation defects. Together with execution recovery via IIS-enhanced diagnostics, ReLoop raises correctness from 22.6% to 31.1% and execution from 72.1% to 100.0% on the strongest model, with consistent gains across five models spanning three paradigms (foundation, SFT, RL) and three benchmarks. We additionally release RetailOpt-190, 190 compositional retail optimization scenarios targeting the multi-constraint interactions where LLMs most frequently fail.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.