코드 리뷰 에이전트 벤치마크
Code Review Agent Benchmark
소프트웨어 공학 에이전트는 코드 작성 분야에서 상당한 잠재력을 보여주고 있습니다. 인공지능 에이전트가 코드 작성에 깊숙이 관여하고, 대량의 코드를 자동으로 생성함에 따라 코드 품질 문제가 중요한 이슈로 부상하고 있습니다. 자동으로 생성된 코드가 대규모 코드 베이스에 통합됨에 따라 코드 검토 및 품질 보증의 중요성이 더욱 커지고 있습니다. 본 논문에서는 이 문제를 새롭게 접근하여, 인공지능 에이전트가 활용할 수 있는 코드 검토 데이터셋을 구축했습니다. 저희가 개발한 c-CRAB (씨-크랩) 데이터셋은 코드 검토 작업을 수행하는 에이전트를 평가하는 데 사용될 수 있습니다. 구체적으로, 풀 리퀘스트(코드 생성 에이전트 또는 인간에 의해 생성된 것)가 주어지면, 코드 검토 에이전트가 리뷰를 생성하는 경우, 저희의 평가 프레임워크는 해당 에이전트의 코드 검토 능력을 평가할 수 있습니다. 저희의 평가 프레임워크는 현재 최고 수준의 오픈 소스 PR 에이전트뿐만 아니라 Devin, Claude Code, Codex와 같은 상용 코드 검토 에이전트도 평가하는 데 사용되었습니다. 저희의 c-CRAB 데이터셋은 인간의 리뷰를 기반으로 체계적으로 구축되었습니다. 풀 리퀘스트 인스턴스에 대한 인간의 리뷰가 주어지면, 해당 리뷰에 대한 평가를 위한 테스트를 생성합니다. 이러한 벤치마크 구축은 여러 가지 중요한 통찰력을 제공합니다. 첫째, 기존의 코드 검토 에이전트들을 종합적으로 고려했을 때, c-CRAB 작업의 약 40%만 해결할 수 있으며, 이는 향후 연구를 통해 이 격차를 줄일 수 있는 잠재력을 시사합니다. 둘째, 에이전트의 리뷰가 인간의 리뷰와 다른 측면을 고려하는 경우가 많다는 것을 관찰했는데, 이는 향후 소프트웨어 팀에서 활용될 수 있는 인간-에이전트 협업을 위한 코드 검토의 가능성을 보여줍니다. 마지막으로, 저희 데이터셋에서 생성된 에이전트 테스트는 에이전트가 생성한 리뷰에 대한 품질 검증을 위한 테스트 스위트 역할을 합니다. 코드 생성 에이전트, 테스트 생성 에이전트 및 코드 검토 에이전트 간의 향후 협업이 어떻게 이루어질지는 더 많은 연구를 통해 밝혀져야 할 것입니다.
Software engineering agents have shown significant promise in writing code. As AI agents permeate code writing, and generate huge volumes of code automatically -- the matter of code quality comes front and centre. As the automatically generated code gets integrated into huge code-bases -- the issue of code review and broadly quality assurance becomes important. In this paper, we take a fresh look at the problem and curate a code review dataset for AI agents to work with. Our dataset called c-CRAB (pronounced see-crab) can evaluate agents for code review tasks. Specifically given a pull-request (which could be coming from code generation agents or humans), if a code review agent produces a review, our evaluation framework can asses the reviewing capability of the code review agents. Our evaluation framework is used to evaluate the state of the art today -- the open-source PR-agent, as well as commercial code review agents from Devin, Claude Code, and Codex. Our c-CRAB dataset is systematically constructed from human reviews -- given a human review of a pull request instance we generate corresponding tests to evaluate the code review agent generated reviews. Such a benchmark construction gives us several insights. Firstly, the existing review agents taken together can solve only around 40% of the c-CRAB tasks, indicating the potential to close this gap by future research. Secondly, we observe that the agent reviews often consider different aspects from the human reviews -- indicating the potential for human-agent collaboration for code review that could be deployed in future software teams. Last but not the least, the agent generated tests from our data-set act as a held out test-suite and hence quality gate for agent generated reviews. What this will mean for future collaboration of code generation agents, test generation agents and code review agents -- remains to be investigated.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.