에셔 루프: 폐쇄 루프 자기 참조 최적화를 통한 상호 진화
Escher-Loop: Mutual Evolution by Closed-Loop Self-Referential Optimization
최근의 자율 에이전트는 인상적인 능력을 보여주지만, 대부분 수동으로 작성된 워크플로우와 수작업으로 만들어진 휴리스틱에 의존하며, 이는 잠재적인 지속적인 개선 가능성을 제한합니다. 이를 해결하기 위해, 우리는 두 가지 상이한 집단, 즉 구체적인 문제를 해결하는 태스크 에이전트와 태스크 에이전트와 자신을 재귀적으로 개선하는 옵티마이저 에이전트의 상호 진화를 실현하는 완전한 폐쇄 루프 프레임워크인 '에셔 루프'를 제안합니다. 이러한 자기 참조 진화를 유지하기 위해, 우리는 새로 생성된 태스크 에이전트의 경험적 점수를 활용하여 옵티마이저의 점수를 업데이트하는 동적 벤치마킹 메커니즘을 제안합니다. 이 메커니즘은 태스크 에이전트의 진화를 평가 및 옵티마이저 개선을 위한 고유한 신호로 활용하며, 추가적인 오버헤드를 발생시키지 않습니다. 수학적 최적화 문제에 대한 실험적 평가 결과, 에셔 루프는 기존의 정적인 기준 성능을 효과적으로 능가하며, 동일한 컴퓨팅 자원 하에서 평가된 모든 작업에서 가장 높은 절대적인 최고 성능을 달성했습니다. 놀랍게도, 옵티마이저 에이전트는 고성능 태스크 에이전트의 변화하는 요구 사항에 맞춰 전략을 동적으로 조정하며, 이는 시스템의 지속적인 개선과 우수한 후기 단계 성능을 설명합니다.
While recent autonomous agents demonstrate impressive capabilities, they predominantly rely on manually scripted workflows and handcrafted heuristics, inherently limiting their potential for open-ended improvement. To address this, we propose Escher-Loop, a fully closed-loop framework that operationalizes the mutual evolution of two distinct populations: Task Agents that solve concrete problems, and Optimizer Agents that recursively refine both the task agents and themselves. To sustain this self-referential evolution, we propose a dynamic benchmarking mechanism that seamlessly reuses the empirical scores of newly generated task agents as relative win-loss signals to update optimizers' scores. This mechanism leverages the evolution of task agents as an inherent signal to drive the evaluation and refinement of optimizers without additional overhead. Empirical evaluations on mathematical optimization problems demonstrate that Escher-Loop effectively pushes past the performance ceilings of static baselines, achieving the highest absolute peak performance across all evaluated tasks under matched compute. Remarkably, we observe that the optimizer agents dynamically adapt their strategies to match the shifting demands of high-performing task agents, which explains the system's continuous improvement and superior late-stage performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.