AGENTS.md 평가: 리포지토리 수준의 컨텍스트 파일이 코딩 에이전트에 도움이 되는가?
Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?
소프트웨어 개발에서 널리 퍼진 관행 중 하나는 AGENTS.md와 같은 컨텍스트 파일을 수동 또는 자동으로 생성하여 코딩 에이전트를 리포지토리에 맞게 조정하는 것입니다. 이러한 관행은 에이전트 개발자들에 의해 강력히 권장되고 있지만, 현재 이러한 컨텍스트 파일이 실제 작업에 정말로 효과적인지에 대한 엄밀한 조사는 없는 실정입니다. 본 연구에서는 이 질문을 탐구하고 두 가지 상호 보완적인 환경에서 코딩 에이전트의 작업 완료 성능을 평가합니다. 첫 번째는 인기 있는 리포지토리의 기존 SWE-bench 작업에 에이전트 개발자의 권장 사항에 따라 LLM이 생성한 컨텍스트 파일을 적용한 환경이며, 두 번째는 개발자가 커밋한 컨텍스트 파일이 포함된 리포지토리의 새로운 이슈 모음을 활용한 환경입니다. 여러 코딩 에이전트와 LLM을 분석한 결과, 컨텍스트 파일을 제공하는 것은 리포지토리 컨텍스트를 제공하지 않을 때와 비교하여 작업 성공률을 감소시키는 경향이 있었으며, 동시에 추론 비용을 20% 이상 증가시켰습니다. 행동 측면에서 LLM이 생성한 컨텍스트 파일과 개발자가 제공한 컨텍스트 파일 모두 더 광범위한 탐색(예: 더 철저한 테스트 및 파일 탐색)을 유도했으며, 코딩 에이전트는 해당 지침을 잘 따르는 경향이 있었습니다. 궁극적으로 우리는 컨텍스트 파일의 불필요한 요구 사항이 작업을 더 어렵게 만들며, 사람이 작성하는 컨텍스트 파일은 최소한의 요구 사항만을 명시해야 한다고 결론 내립니다.
A widespread practice in software development is to tailor coding agents to repositories using context files, such as AGENTS.md, by either manually or automatically generating them. Although this practice is strongly encouraged by agent developers, there is currently no rigorous investigation into whether such context files are actually effective for real-world tasks. In this work, we study this question and evaluate coding agents' task completion performance in two complementary settings: established SWE-bench tasks from popular repositories, with LLM-generated context files following agent-developer recommendations, and a novel collection of issues from repositories containing developer-committed context files. Across multiple coding agents and LLMs, we find that context files tend to reduce task success rates compared to providing no repository context, while also increasing inference cost by over 20%. Behaviorally, both LLM-generated and developer-provided context files encourage broader exploration (e.g., more thorough testing and file traversal), and coding agents tend to respect their instructions. Ultimately, we conclude that unnecessary requirements from context files make tasks harder, and human-written context files should describe only minimal requirements.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.