2601.06845v1 Jan 11, 2026 cs.AI

제어를 위한 코드 진화: LLM 주도 진화적 탐색을 통한 정책 합성

Code Evolution for Control: Synthesizing Policies via LLM-Driven Evolutionary Search

Chao Li
Chao Li
Citations: 0
h-index: 0
P. Guo
P. Guo
Citations: 8
h-index: 1
Chaoning Zhang
Chaoning Zhang
Citations: 57
h-index: 4
Yinglan Feng
Yinglan Feng
Citations: 140
h-index: 6

자율 시스템을 위한 효과적인 제어 정책을 설계하는 것은 여전히 근본적인 과제로 남아 있으며, 전통적으로는 강화 학습이나 수동 엔지니어링을 통해 해결되어 왔습니다. 강화 학습이 놀라운 성공을 거두었지만, 높은 샘플 복잡성, 보상 설계의 어려움, 그리고 해석하거나 검증하기 어려운 불투명한 신경망 정책을 생성한다는 문제점을 자주 겪습니다. 반면, 수동 설계는 상당한 도메인 전문 지식을 필요로 하며 다양한 작업으로 확장하는 데 어려움이 있습니다. 본 연구에서는 LLM 주도 진화적 탐색이 실행 가능한 코드 형태의 해석 가능한 제어 정책을 효과적으로 합성할 수 있음을 입증합니다. 정책 합성을 코드 진화 문제로 취급함으로써, 우리는 LLM이 가진 프로그래밍 패턴 및 제어 휴리스틱에 대한 사전 지식을 활용하는 동시에, 진화적 탐색을 통해 솔루션 공간을 체계적으로 탐색합니다. 우리는 LLM 주도 진화와 사용자 정의 가능한 적합도 평가를 매끄럽게 통합하는 프레임워크인 EvoToolkit을 사용하여 접근 방식을 구현했습니다. 우리의 방법은 후보 정책 프로그램의 개체군을 반복적으로 진화시키며, 작업별 목표에 대해 평가하고 재생산을 위해 우수한 개체를 선택합니다. 이 과정은 직접 검사, 수정 및 형식적 검증이 가능한 간결하고 가독성 높은 제어 정책을 산출합니다. 본 연구는 자율 시스템에서 신뢰할 수 있는 제어 정책을 합성하기 위해 기반 모델(foundation models)과 진화 연산을 결합하는 것의 잠재력을 강조합니다. 코드는 https://github.com/pgg3/EvoControl 에서 확인할 수 있습니다.

Original Abstract

Designing effective control policies for autonomous systems remains a fundamental challenge, traditionally addressed through reinforcement learning or manual engineering. While reinforcement learning has achieved remarkable success, it often suffers from high sample complexity, reward shaping difficulties, and produces opaque neural network policies that are hard to interpret or verify. Manual design, on the other hand, requires substantial domain expertise and struggles to scale across diverse tasks. In this work, we demonstrate that LLM-driven evolutionary search can effectively synthesize interpretable control policies in the form of executable code. By treating policy synthesis as a code evolution problem, we harness the LLM's prior knowledge of programming patterns and control heuristics while employing evolutionary search to explore the solution space systematically. We implement our approach using EvoToolkit, a framework that seamlessly integrates LLM-driven evolution with customizable fitness evaluation. Our method iteratively evolves populations of candidate policy programs, evaluating them against task-specific objectives and selecting superior individuals for reproduction. This process yields compact, human-readable control policies that can be directly inspected, modified, and formally verified. This work highlights the potential of combining foundation models with evolutionary computation for synthesizing trustworthy control policies in autonomous systems. Code is available at https://github.com/pgg3/EvoControl.

0 Citations
0 Influential
26.4657359028 Altmetric
132.3 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!