스펙 기반 에이전트: 컨텍스트 기반 에이전트 워크플로우
Spec Kit Agents: Context-Grounded Agentic Workflows
AI 코딩 에이전트를 활용한 스펙 기반 개발(SDD)은 체계적인 워크플로우를 제공하지만, 에이전트들은 종종 대규모의 변화하는 저장소에서 "컨텍스트를 인식하지 못하는" 상태로 남아 있어, 잘못된 API를 생성하거나 아키텍처 위반을 초래할 수 있습니다. 본 연구에서는 스펙 기반 SDD 파이프라인인 Spec Kit Agents를 제안합니다. 이 파이프라인은 프로젝트 관리자(PM) 및 개발자 역할을 수행하는 다중 에이전트를 포함하며, 단계별로 컨텍스트 정보를 제공하는 기능을 추가합니다. 읽기 전용 프로빙 훅은 각 단계(명세, 계획, 작업, 구현)를 저장소의 정보와 연결하여 컨텍스트를 제공하며, 검증 훅은 중간 결과물을 환경과 비교하여 오류를 검사합니다. 본 연구에서는 5개의 저장소에 걸쳐 32개의 기능을 구현하는 128개의 실행 결과를 평가했습니다. 컨텍스트 정보 제공 훅은 LLM을 활용한 품질 평가에서 평균 0.15점(총 점수의 3.0% 증가; Wilcoxon 부호 순위 검정, p < 0.05)으로 품질을 향상시키는 것을 확인했으며, 저장소 수준의 테스트 호환성은 99.7%에서 100%를 유지했습니다. 또한, 본 연구에서는 SWE-bench Lite 환경에서 이 프레임워크를 평가한 결과, 증강 훅을 통해 기준 성능을 1.7% 향상시켜 Pass@1의 정확도를 58.2%까지 달성했습니다.
Spec-driven development (SDD) with AI coding agents provides a structured workflow, but agents often remain "context blind" in large, evolving repositories, leading to hallucinated APIs and architectural violations. We present Spec Kit Agents, a multi-agent SDD pipeline (with PM and developer roles) that adds phase-level, context-grounding hooks. Read-only probing hooks ground each stage (Specify, Plan, Tasks, Implement) in repository evidence, while validation hooks check intermediate artifacts against the environment. We evaluate 128 runs covering 32 features across five repositories. Context-grounding hooks improve judged quality by +0.15 on a 1-5 composite LLM-as-judge score (+3.0 percent of the full score; Wilcoxon signed-rank, p < 0.05) while maintaining 99.7-100 percent repository-level test compatibility. We further evaluate the framework on SWE-bench Lite, where augmentation hooks improve baseline by 1.7 percent, achieving 58.2 percent Pass@1.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.