에이전트 멘토: 시맨틱 트래jectory 분석을 통한 에이전트 지식 체계화
Agent Mentor: Framing Agent Knowledge through Semantic Trajectory Analysis
인공지능 에이전트 개발은 에이전트의 작업, 지식 및 목표를 정의하기 위해 자연어 프롬프트를 사용하는 데 크게 의존합니다. 이러한 프롬프트는 에이전트의 동작을 제어하는 대규모 언어 모델(LLM)에 의해 해석됩니다. 결과적으로, 부정확하거나 모호한 프롬프트로 인해 발생하는 변동성이 에이전트의 성능에 영향을 미칠 수 있습니다. 이러한 문제를 식별하고 수정하려면 에이전트의 코드뿐만 아니라 실행 로그에 기록된 에이전트의 실행 수명 주기 동안 생성되는 내부 시스템 프롬프트를 검토해야 합니다. 본 연구에서는 Agent Mentor 오픈 소스 라이브러리의 일부로 구현된 분석 파이프라인을 소개합니다. 이 파이프라인은 다른 에이전트의 동작을 정의하는 시스템 프롬프트를 모니터링하고 점진적으로 조정합니다. 파이프라인은 에이전트의 지식에 체계적으로 수정 지침을 주입하여 성능을 향상시킵니다. 우리는 이 파이프라인의 기본 메커니즘을 설명하며, 특히 바람직하지 않은 동작과 관련된 의미적 특징을 식별하고 이를 사용하여 수정 문장을 도출하는 데 중점을 둡니다. 제안된 파이프라인은 세 가지 예시 에이전트 구성 및 벤치마크 작업을 사용하여 반복적인 실행을 통해 효과성을 평가했습니다. 이러한 실험은 향후 에이전트 거버넌스 프레임워크 내에서 이러한 멘토링 파이프라인을 자동화하는 것에 대한 초기 탐색을 제공합니다. 전반적으로, 이 접근 방식은 다양한 구성에서 일관되고 측정 가능한 정확도 향상을 보여주며, 특히 사양의 모호성이 지배적인 환경에서 더욱 두드러집니다. 재현성을 위해, 저희 코드를 Agent Mentor 라이브러리에서 오픈 소스로 공개했습니다.
AI agent development relies heavily on natural language prompting to define agents' tasks, knowledge, and goals. These prompts are interpreted by Large Language Models (LLMs), which govern agent behavior. Consequently, agentic performance is susceptible to variability arising from imprecise or ambiguous prompt formulations. Identifying and correcting such issues requires examining not only the agent's code, but also the internal system prompts generated throughout its execution lifecycle, as reflected in execution logs. In this work, we introduce an analytics pipeline implemented as part of the Agent Mentor open-source library that monitors and incrementally adapts the system prompts defining another agent's behavior. The pipeline improves performance by systematically injecting corrective instructions into the agent's knowledge. We describe its underlying mechanism, with particular emphasis on identifying semantic features associated with undesired behaviors and using them to derive corrective statements. We evaluate the proposed pipeline across three exemplar agent configurations and benchmark tasks using repeated execution runs to assess effectiveness. These experiments provide an initial exploration of automating such a mentoring pipeline within future agentic governance frameworks. Overall, the approach demonstrates consistent and measurable accuracy improvements across diverse configurations, particularly in settings dominated by specification ambiguity. For reproducibility, we released our code as open source under the Agent Mentor library.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.