2601.04886v2 Jan 08, 2026 cs.SE

AI 코딩 에이전트가 작성한 풀 리퀘스트에서 메시지-코드 불일치 분석

Analyzing Message-Code Inconsistency in AI Coding Agent-Authored Pull Requests

Jingzhi Gong
Jingzhi Gong
Citations: 8
h-index: 1
Giovanni Pinna
Giovanni Pinna
Citations: 2
h-index: 1
Yixin Bian
Yixin Bian
Citations: 3
h-index: 1
Jie M. Zhang
Jie M. Zhang
Citations: 30
h-index: 3

AI 코딩 에이전트가 생성하는 풀 리퀘스트(PR) 설명은 코드 변경 사항을 인간 검토자에게 전달하는 주요 수단입니다. 그러나 이러한 메시지와 실제 변경 사항 간의 일관성은 아직 연구되지 않았으며, 이는 AI 에이전트의 신뢰성에 대한 우려를 불러일으킵니다. 이러한 격차를 해소하기 위해, 우리는 5개의 에이전트에서 생성된 23,247개의 에이전트 풀 리퀘스트를 대상으로 풀 리퀘스트 메시지-코드 불일치(PR-MCI)를 분석했습니다. 우리는 974개의 PR을 수동으로 주석 처리하여 분석했으며, 406개의 PR(1.7%)이 높은 PR-MCI를 나타내는 것을 발견했습니다. 또한, 8가지 PR-MCI 유형을 식별했으며, 그 중 "설명에서 구현되지 않은 변경 사항을 언급하는 경우"가 가장 흔한 문제(45.4%)였습니다. 통계적 검정 결과, 높은 PR-MCI를 가진 PR은 수락률이 51.7% 낮고(28.3% vs. 80.0%), 병합하는 데 3.5배 더 오래 걸리는 것으로 나타났습니다(55.8시간 vs. 16.0시간). 이러한 결과는 신뢰할 수 없는 PR 설명이 AI 에이전트에 대한 신뢰를 저해하며, 신뢰할 수 있는 인간-AI 협업을 가능하게 하기 위해서는 PR-MCI 검증 메커니즘과 PR 생성 기능 개선이 필요하다는 것을 시사합니다.

Original Abstract

Pull request (PR) descriptions generated by AI coding agents are the primary channel for communicating code changes to human reviewers. However, the alignment between these messages and the actual changes remains unexplored, raising concerns about the trustworthiness of AI agents. To fill this gap, we analyzed 23,247 agentic PRs across five agents using PR message-code inconsistency (PR-MCI). We contributed 974 manually annotated PRs, found 406 PRs (1.7%) exhibited high PR-MCI, and identified eight PR-MCI types, revealing that "descriptions claim unimplemented changes" was the most common issue (45.4%). Statistical tests confirmed that high-MCI PRs had 51.7% lower acceptance rates (28.3% vs. 80.0%) and took 3.5 times longer to merge (55.8 vs. 16.0 hours). Our findings suggest that unreliable PR descriptions undermine trust in AI agents, highlighting the need for PR-MCI verification mechanisms and improved PR generation to enable trustworthy human-AI collaboration.

1 Citations
0 Influential
1.5 Altmetric
8.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!