Wink: 코딩 에이전트의 오작동 복구
Wink: Recovering from Misbehaviors in Coding Agents
대규모 언어 모델(LLM)에 기반한 자율 코딩 에이전트는 복잡한 엔지니어링 작업을 자동화하기 위해 소프트웨어 산업에서 점점 더 많이 채택되고 있습니다. 그러나 이러한 에이전트는 사용자의 지시에서 벗어나거나, 반복적인 루프에 빠지거나, 도구를 올바르게 사용하지 못하는 등 다양한 오작동을 일으키기 쉽습니다. 이러한 실패는 개발 워크플로를 방해하며, 종종 리소스 집약적인 수동 개입을 요구합니다. 본 논문에서는 대규모 환경에서 에이전트의 오작동을 자동으로 복구하는 시스템을 제안합니다. 먼저 실제 프로덕션 트래픽 분석을 바탕으로 오작동의 분류 체계를 소개하며, 전체 에이전트 궤적의 약 30%에서 발생하는 세 가지 주요 범주로 명세 이탈(Specification Drift), 추론 문제(Reasoning Problems), 도구 호출 실패(Tool Call Failures)를 식별했습니다. 이러한 문제를 해결하기 위해, 우리는 Wink라는 경량화된 비동기식 자체 개입 시스템을 개발했습니다. Wink는 에이전트의 궤적을 관찰하고, 에이전트가 생산적인 경로로 돌아가도록 유도하는 맞춤형 궤도 수정 지침을 제공합니다. 10,000개 이상의 실제 에이전트 궤적을 대상으로 시스템을 평가한 결과, 단일 개입이 필요한 오작동의 90%를 성공적으로 해결하는 것으로 나타났습니다. 또한, 프로덕션 환경에서 진행된 실시간 A/B 테스트를 통해 이 시스템이 도구 호출 실패, 세션당 토큰 사용량 및 세션당 엔지니어 개입 횟수를 통계적으로 유의미하게 감소시킴을 입증했습니다. 본 논문에서는 이 시스템을 설계하고 배포한 경험을 공유하며, 대규모 환경에서 복원력 있는 에이전트 시스템을 구축할 때 발생하는 당면 과제들에 대한 통찰을 제공합니다.
Autonomous coding agents, powered by large language models (LLMs), are increasingly being adopted in the software industry to automate complex engineering tasks. However, these agents are prone to a wide range of misbehaviors, such as deviating from the user's instructions, getting stuck in repetitive loops, or failing to use tools correctly. These failures disrupt the development workflow and often require resource-intensive manual intervention. In this paper, we present a system for automatically recovering from agentic misbehaviors at scale. We first introduce a taxonomy of misbehaviors grounded in an analysis of production traffic, identifying three primary categories: Specification Drift, Reasoning Problems, and Tool Call Failures, which we find occur in about 30% of all agent trajectories. To address these issues, we developed a lightweight, asynchronous self-intervention system named Wink. Wink observes agent trajectories and provides targeted course-correction guidance to nudge the agent back to a productive path. We evaluated our system on over 10,000 real world agent trajectories and found that it successfully resolves 90% of the misbehaviors that require a single intervention. Furthermore, a live A/B test in our production environment demonstrated that our system leads to a statistically significant reduction in Tool Call Failures, Tokens per Session and Engineer Interventions per Session. We present our experience designing and deploying this system, offering insights into the challenges of building resilient agentic systems at scale.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.