CreativeBench: 자기 진화적 과제를 통한 머신 창의성 벤치마킹 및 향상
CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges
고품질 사전 훈련 데이터의 포화는 연구의 초점을 지속적으로 새로운 결과물을 생성할 수 있는 진화 시스템으로 전환시켰으며, 이는 AlphaEvolve의 성공으로 이어졌습니다. 그러나 이러한 시스템의 발전은 엄격하고 정량적인 평가 부족으로 인해 제한됩니다. 이러한 문제를 해결하기 위해, 우리는 코드 생성 분야의 머신 창의성을 평가하기 위한 벤치마크인 CreativeBench를 소개합니다. CreativeBench는 고전적인 인지적 프레임워크에 기반하며, CreativeBench-Combo와 CreativeBench-Explore라는 두 개의 하위 집합으로 구성되어 있으며, 역공학 및 자체 학습을 활용하는 자동화된 파이프라인을 통해 조합적 및 탐색적 창의성을 목표로 합니다. CreativeBench는 실행 가능한 코드를 활용하여 품질과 참신성의 곱으로 정의된 통합 지표를 통해 창의성과 환각을 객관적으로 구별합니다. 최첨단 모델에 대한 우리의 분석은 다음과 같은 뚜렷한 행동 양상을 보여줍니다. (1) 크기 확장(scaling)은 조합적 창의성을 크게 향상시키지만, 탐색의 경우 점진적인 효과를 나타냅니다. (2) 더 큰 모델은 "규모 확장에 의한 수렴(convergence-by-scaling)" 현상을 보이며, 정확도는 높아지지만 다양성은 감소합니다. (3) 추론 능력은 조합보다 제약 조건이 있는 탐색에 주로 긍정적인 영향을 미칩니다. 마지막으로, 우리는 진화적 검색 패턴을 내부화하여 머신 창의성을 지속적으로 향상시키는 플러그 앤 플레이 추론 시간 제어 전략인 EvoRePE를 제안합니다.
The saturation of high-quality pre-training data has shifted research focus toward evolutionary systems capable of continuously generating novel artifacts, leading to the success of AlphaEvolve. However, the progress of such systems is hindered by the lack of rigorous, quantitative evaluation. To tackle this challenge, we introduce CreativeBench, a benchmark for evaluating machine creativity in code generation, grounded in a classical cognitive framework. Comprising two subsets -- CreativeBench-Combo and CreativeBench-Explore -- the benchmark targets combinatorial and exploratory creativity through an automated pipeline utilizing reverse engineering and self-play. By leveraging executable code, CreativeBench objectively distinguishes creativity from hallucination via a unified metric defined as the product of quality and novelty. Our analysis of state-of-the-art models reveals distinct behaviors: (1) scaling significantly improves combinatorial creativity but yields diminishing returns for exploration; (2) larger models exhibit ``convergence-by-scaling,'' becoming more correct but less divergent; and (3) reasoning capabilities primarily benefit constrained exploration rather than combination. Finally, we propose EvoRePE, a plug-and-play inference-time steering strategy that internalizes evolutionary search patterns to consistently enhance machine creativity.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.