SWE-chat: 실제 사용자 환경에서 수집된 코딩 에이전트 상호 작용 데이터
SWE-chat: Coding Agent Interactions From Real Users in the Wild
AI 코딩 에이전트가 광범위하게 사용되고 있지만, 사람들이 실제로 어떻게 사용하는지, 그리고 생성된 결과물이 얼마나 유용한지에 대한 경험적 증거는 부족합니다. 본 논문에서는 오픈 소스 개발자를 대상으로 수집된 최초의 대규모 실제 코딩 에이전트 상호 작용 데이터셋인 SWE-chat을 소개합니다. 현재 데이터셋은 6,000개의 세션으로 구성되어 있으며, 63,000개 이상의 사용자 프롬프트와 355,000개의 에이전트 도구 호출 정보를 포함하고 있습니다. SWE-chat은 지속적으로 업데이트되는 데이터셋이며, 데이터 수집 파이프라인은 공개 저장소에서 자동으로 세션을 검색하고 처리합니다. SWE-chat을 활용하여 실제 코딩 에이전트 사용 현황과 오류 발생 패턴에 대한 초기 경험적 분석을 제공합니다. 분석 결과, 코딩 패턴은 양극화되어 있습니다. 41%의 세션에서는 에이전트가 거의 모든 코드를 생성하는 반면, 23%의 세션에서는 사용자가 모든 코드를 직접 작성합니다. 급속한 성능 향상에도 불구하고, 코딩 에이전트는 실제 환경에서 여전히 비효율적입니다. 생성된 코드 중 44%만이 사용자 커밋에 포함되며, 에이전트가 작성한 코드는 인간이 작성한 코드보다 더 많은 보안 취약점을 유발합니다. 또한, 사용자는 44%의 경우 수정, 오류 보고, 중단 등의 방식으로 에이전트의 결과물에 반발합니다. SWE-chat은 인간과 에이전트가 작성한 코드의 출처를 명확하게 구분하여 완전한 상호 작용 기록을 제공함으로써, 선별된 벤치마크를 넘어 실제 개발 워크플로우에서 AI 에이전트가 어떻게 작동하는지에 대한 경험 기반의 이해를 가능하게 합니다.
AI coding agents are being adopted at scale, yet we lack empirical evidence on how people actually use them and how much of their output is useful in practice. We present SWE-chat, the first large-scale dataset of real coding agent sessions collected from open-source developers in the wild. The dataset currently contains 6,000 sessions, comprising more than 63,000 user prompts and 355,000 agent tool calls. SWE-chat is a living dataset; our collection pipeline automatically and continually discovers and processes sessions from public repositories. Leveraging SWE-chat, we provide an initial empirical characterization of real-world coding agent usage and failure modes. We find that coding patterns are bimodal: in 41% of sessions, agents author virtually all committed code ("vibe coding"), while in 23%, humans write all code themselves. Despite rapidly improving capabilities, coding agents remain inefficient in natural settings. Just 44% of all agent-produced code survives into user commits, and agent-written code introduces more security vulnerabilities than code authored by humans. Furthermore, users push back against agent outputs -- through corrections, failure reports, and interruptions -- in 44% of all turns. By capturing complete interaction traces with human vs. agent code authorship attribution, SWE-chat provides an empirical foundation for moving beyond curated benchmarks towards an evidence-based understanding of how AI agents perform in real developer workflows.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.