에이전트 스킬 진화를 통한 메타 컨텍스트 엔지니어링
Meta Context Engineering via Agentic Skill Evolution
대형 언어 모델의 운영 효율성은 추론 시점의 컨텍스트에 크게 의존합니다. 이로 인해 이러한 입력을 최적화하기 위한 정식 학문 분야로서 컨텍스트 엔지니어링(CE)이 확립되었습니다. 현재의 CE 방법론들은 경직된 생성-성찰 워크플로우나 사전 정의된 컨텍스트 스키마와 같이 수동으로 제작된 틀에 의존하고 있습니다. 이는 구조적 편향을 야기하며, 컨텍스트 최적화를 좁고 직관에 의존하는 설계 공간으로 제한합니다. 이러한 문제를 해결하기 위해, 우리는 CE 스킬과 컨텍스트 결과물을 공동 진화시켜 정적인 CE 휴리스틱을 대체하는 이중 레벨 프레임워크인 메타 컨텍스트 엔지니어링(MCE)을 제안합니다. MCE의 반복 과정에서 메타 레벨 에이전트는 스킬의 이력, 실행 및 평가에 대한 심층적인 탐색 과정인 에이전트 교차(agentic crossover)를 통해 엔지니어링 스킬을 개선합니다. 베이스 레벨 에이전트는 이러한 스킬을 실행하고, 훈련 롤아웃을 통해 학습하며, 컨텍스트를 유연한 파일과 코드로 최적화합니다. 우리는 오프라인 및 온라인 설정 하에 5개의 상이한 도메인에서 MCE를 평가했습니다. MCE는 최신 에이전트 기반 CE 방법론 대비 5.6~53.8%(평균 16.9%)의 상대적 성능 향상을 달성하며 일관된 이득을 입증했고, 동시에 컨텍스트 사용 및 훈련 측면에서 우수한 컨텍스트 적응성, 전이성, 효율성을 유지했습니다.
The operational efficacy of large language models relies heavily on their inference-time context. This has established Context Engineering (CE) as a formal discipline for optimizing these inputs. Current CE methods rely on manually crafted harnesses, such as rigid generation-reflection workflows and predefined context schemas. They impose structural biases and restrict context optimization to a narrow, intuition-bound design space. To address this, we introduce Meta Context Engineering (MCE), a bi-level framework that supersedes static CE heuristics by co-evolving CE skills and context artifacts. In MCE iterations, a meta-level agent refines engineering skills via agentic crossover, a deliberative search over the history of skills, their executions, and evaluations. A base-level agent executes these skills, learns from training rollouts, and optimizes context as flexible files and code. We evaluate MCE across five disparate domains under offline and online settings. MCE demonstrates consistent performance gains, achieving 5.6--53.8% relative improvement over state-of-the-art agentic CE methods (mean of 16.9%), while maintaining superior context adaptability, transferability, and efficiency in both context usage and training.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.