2605.05700v1 May 07, 2026 cs.SE

현실 세계 소프트웨어 개발에서의 능동형 코딩 어시스턴트에 대한 실증 연구

An Empirical Study of Proactive Coding Assistants in Real-World Software Development

Lehui Li
Lehui Li
Citations: 17
h-index: 2
Ruixuan Jia
Ruixuan Jia
Citations: 34
h-index: 3
Guohao Yang
Guohao Yang
Citations: 19
h-index: 2
Jia Li
Jia Li
Citations: 28
h-index: 2

대규모 언어 모델(LLM) 기반 코딩 어시스턴트는 상당한 발전을 이루었지만, 대부분의 시스템은 여전히 수동적으로 작동하며 개발자가 명시적으로 요구사항을 제시해야 합니다. 능동형 코딩 어시스턴트는 통합 개발 환경(IDE)과의 상호 작용 및 저장소 컨텍스트로부터 잠재적인 개발자 의도를 추론하여 상호 작용 오버헤드를 줄이고 더욱 원활한 지원을 제공하는 것을 목표로 합니다. 그러나 이러한 연구는 대규모의 실제 개발자 행동 데이터의 부족으로 인해 제한됩니다. 따라서 기존 연구는 종종 LLM 시뮬레이션을 통해 생성된 IDE 추적 데이터를 사용하는데, 이러한 데이터가 실제 개발 행동을 얼마나 정확하게 반영하는지는 불분명합니다. 본 논문에서는 대규모 실증 연구를 통해 이러한 시뮬레이션과 현실 간의 격차를 조사합니다. 당사는 사용자 정의 Visual Studio Code 확장 프로그램을 사용하여 1,246명의 숙련된 산업 개발자로부터 3일 연속으로 실제 IDE 상호 작용 추적 데이터를 수집하고, 통제된 비교를 위해 LLM 시뮬레이션 추적 데이터를 생성했습니다. 분석 결과, 시뮬레이션 추적 데이터는 실제 추적 데이터와 행동 다양성, 시간 구조 및 탐색 패턴 측면에서 상당한 차이를 보이는 것으로 나타났습니다. 수집된 데이터를 기반으로, 능동적인 의도 예측을 위한 실제 환경 벤치마크인 ProCodeBench를 소개합니다. 대표적인 LLM, 검색 증강 방법 및 에이전트 기반 모델을 사용한 실험 결과, 현재의 접근 방식은 실제 IDE 추적 데이터 하에서 신뢰성이 떨어지는 것으로 나타났으며, 이는 시뮬레이션 기반 평가가 실제 성능을 과대평가할 수 있음을 시사합니다. 또한, 학습 연구 결과, 시뮬레이션 데이터는 실제 데이터를 대체할 수 없지만, 실제 환경에서 미세 조정하기 전에 사용하면 보완적인 역할을 할 수 있습니다. 이러한 결과는 능동형 코딩 어시스턴트를 평가하고 학습하는 데 있어 실제 개발자 행동 데이터의 중요성을 강조합니다.

Original Abstract

Large language model (LLM)-based coding assistants have made substantial progress, yet most systems remain reactive, requiring developers to explicitly formulate their needs. Proactive coding assistants aim to infer latent developer intent from integrated development environment (IDE) interactions and repository context, thereby reducing interaction overhead and supporting more seamless assistance. However, research in this direction is limited by the scarcity of large-scale real-world developer behavior data. Existing studies therefore often rely on LLM-simulated IDE traces, whose fidelity to real development behavior remains unclear. In this paper, we investigate this simulation-to-reality gap through a large-scale empirical study. We collect real IDE interaction traces from 1{,}246 experienced industry developers over three consecutive days using a custom Visual Studio Code extension, and construct paired LLM-simulated traces for controlled comparison. Our analysis shows that simulated traces differ substantially from real traces in behavioral diversity, temporal structure, and exploratory patterns. Based on the collected data, we introduce \textbf{ProCodeBench}, a real-world benchmark for proactive intent prediction. Experiments with representative LLMs, retrieval-augmented methods, and agentic baselines show that current approaches remain far from reliable under real IDE traces, suggesting that simulation-based evaluation can overestimate real-world performance. Finally, our training study shows that simulated data cannot replace real data, but can complement it when used before real-world fine-tuning. These findings highlight the importance of real developer behavior data for evaluating and training proactive coding assistants.

1 Citations
0 Influential
1.5 Altmetric
8.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!