간단한 기준 모델이 코드 진화(Code Evolution) 기술과 경쟁력이 있다
Simple Baselines are Competitive with Code Evolution
코드 진화는 대규모 언어 모델을 활용하여 기존 코드를 진화시키거나 변형하여 가능한 컴퓨터 프로그램을 탐색하는 기술군입니다. 많은 연구에서 제안된 코드 진화 파이프라인은 뛰어난 성능을 보이지만, 종종 더 간단한 기준 모델과 비교되지 않습니다. 본 연구에서는 두 가지 간단한 기준 모델이 세 가지 영역(더 나은 수학적 경계 찾기, 에이전트 기반 시스템 설계, 머신러닝 경진대회)에서 얼마나 잘 작동하는지 테스트했습니다. 그 결과, 간단한 기준 모델은 세 가지 영역 모두에서 훨씬 더 복잡한 방법과 동등하거나 더 나은 성능을 보였습니다. 이러한 결과를 분석한 결과, 코드 진화 기술의 개발 및 활용 방식에 여러 가지 문제점이 있음을 확인했습니다. 수학적 경계 문제를 해결할 때, 문제의 탐색 공간과 프롬프트에 포함된 도메인 지식이 탐색 성능의 한계와 효율성을 결정하는 주요 요인이며, 코드 진화 파이프라인은 상대적으로 중요하지 않습니다. 따라서, 더 나은 경계를 찾는 주요 과제는 좋은 탐색 공간을 설계하는 것이며, 이는 도메인 전문가에 의해 이루어지며, 탐색 자체는 부차적인 문제입니다. 에이전트 기반 시스템을 설계할 때는, 다양한 변동성을 가진 시스템과 작은 데이터 세트가 결합되어 최적의 시스템이 선택되지 않는 경우가 있으며, 그 결과 수동으로 설계된 다수결 방식의 시스템이 가장 좋은 성능을 보였습니다. 본 연구에서는 평가의 불확실성을 줄이면서도 코드 진화 기술을 경제적으로 실행 가능한 방식으로 평가할 수 있는 더 나은 평가 방법을 제안합니다. 마지막으로, 향후 연구에서 보다 엄격한 코드 진화 기술을 가능하게 할 수 있는 방안과 모범 사례에 대해 논의합니다.
Code evolution is a family of techniques that rely on large language models to search through possible computer programs by evolving or mutating existing code. Many proposed code evolution pipelines show impressive performance but are often not compared to simpler baselines. We test how well two simple baselines do over three domains: finding better mathematical bounds, designing agentic scaffolds, and machine learning competitions. We find that simple baselines match or exceed much more sophisticated methods in all three. By analyzing these results we find various shortcomings in how code evolution is both developed and used. For the mathematical bounds, a problem's search space and domain knowledge in the prompt are chiefly what dictate a search's performance ceiling and efficiency, with the code evolution pipeline being secondary. Thus, the primary challenge in finding improved bounds is designing good search spaces, which is done by domain experts, and not the search itself. When designing agentic scaffolds we find that high variance in the scaffolds coupled with small datasets leads to suboptimal scaffolds being selected, resulting in hand-designed majority vote scaffolds performing best. We propose better evaluation methods that reduce evaluation stochasticity while keeping the code evolution economically feasible. We finish with a discussion of avenues and best practices to enable more rigorous code evolution in future work.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.