더 이상 만들 필요 없는 마지막 자동화 시스템
The Last Harness You'll Ever Build
AI 에이전트는 점점 더 복잡하고 특정 분야에 특화된 워크플로우에 적용되고 있습니다. 여기에는 수십 번의 클릭과 폼 입력이 필요한 기업 웹 애플리케이션 탐색, 검색, 추출 및 종합을 포함하는 다단계 연구 파이프라인 관리, 익숙하지 않은 저장소에 대한 코드 검토 자동화, 그리고 미묘한 전문 지식을 요구하는 고객 불만 처리 등이 포함됩니다. 각 새로운 작업 영역에는 전문가가 세심하게 설계해야 하는 자동화 시스템이 필요합니다. 즉, 프롬프트, 도구, 오케스트레이션 로직 및 평가 기준을 설계하여 기반 모델의 효과를 극대화해야 합니다. 저희는 이 프로세스를 자동화하는 두 단계 프레임워크를 제시합니다. 첫 번째 단계에서는 '자동화 시스템 진화 루프'가 단일 작업에 대한 작업자 에이전트의 자동화 시스템 $\mathcal{H}$을 최적화합니다. 작업자 에이전트 $W_{\mathcal{H}}$가 작업을 실행하고, 평가 에이전트 $V$가 잠재적인 오류를 진단하고 성능을 평가하며, 진화 에이전트 $E$가 이전 시도의 전체 기록을 기반으로 자동화 시스템을 수정합니다. 두 번째 단계에서는 '메타-진화 루프'가 다양한 작업에서 진화 프로토콜 $\Lambda = (W_{\mathcal{H}}, \mathcal{H}^{(0)}, V, E)$ 자체를 최적화하여, 모든 새로운 작업에 대해 자동화 시스템이 빠르게 수렴하도록 하는 프로토콜 $\Lambda^{( ext{best})}$을 학습합니다. 이를 통해 에이전트를 새로운 영역에 적용할 때 더 이상 인간의 개입이 필요 없는 자동화 시스템을 구축할 수 있습니다. 저희는 이 과정을 메타-러닝과 연결하여 형식화하고, 관련된 알고리즘을 제시합니다. 이 프레임워크는 수동 자동화 시스템 구축을 자동화된 자동화 시스템 구축으로 전환하며, 더 나아가 '자동화 자체의 설계'까지 자동화합니다.
AI agents are increasingly deployed on complex, domain-specific workflows -- navigating enterprise web applications that require dozens of clicks and form fills, orchestrating multi-step research pipelines that span search, extraction, and synthesis, automating code review across unfamiliar repositories, and handling customer escalations that demand nuanced domain knowledge. \textbf{Each new task domain requires painstaking, expert-driven harness engineering}: designing the prompts, tools, orchestration logic, and evaluation criteria that make a foundation model effective. We present a two-level framework that automates this process. At the first level, the \textbf{Harness Evolution Loop} optimizes a worker agent's harness $\mathcal{H}$ for a single task: a Worker Agent $W_{\mathcal{H}}$ executes the task, an Evaluator Agent $V$ adversarially diagnoses failures and scores performance, and an Evolution Agent $E$ modifies the harness based on the full history of prior attempts. At the second level, the \textbf{Meta-Evolution Loop} optimizes the evolution protocol $Λ= (W_{\mathcal{H}}, \mathcal{H}^{(0)}, V, E)$ itself across diverse tasks, \textbf{learning a protocol $Λ^{(\text{best})}$ that enables rapid harness convergence on any new task -- so that adapting an agent to a novel domain requires no human harness engineering at all.} We formalize the correspondence to meta-learning and present both algorithms. The framework \textbf{shifts manual harness engineering into automated harness engineering}, and takes one step further -- \textbf{automating the design of the automation itself}.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.