코드 아래의 대화: 장기 프로젝트 소프트웨어 엔지니어링 에이전트를 위한 삼자 데이터
The Conversations Beneath the Code: Triadic Data for Long-Horizon Software Engineering Agents
최첨단 소프트웨어 엔지니어링 에이전트는 단기적인 성능 지표에서는 뛰어난 결과를 보이지만, 숙련된 엔지니어의 업무, 즉 장기적인 프로젝트, 다수의 엔지니어가 참여하는 협업, 그리고 불명확한 요구 사항을 처리하는 작업에서는 성능이 저하됩니다. 본 논문은 이러한 격차를 해소하기 위해 필요한 학습 데이터에 대한 관점을 제시합니다. 차세대 소프트웨어 엔지니어링 에이전트의 기반은 더 많은 GitHub 데이터 수집이나, 단일 에이전트의 학습 경로, 또는 인간-AI 대화 로그만으로는 충분하지 않습니다. 핵심은 삼자 데이터입니다. 이는 엔지니어링 맥락이 형성되는 인간-인간의 대화, 해당 맥락이 부분적으로 활용되는 인간-AI 세션, 그리고 이 모든 것을 둘러싸는 수 주기로 진행되는 부서 간 협업을 동기화하여 기록한 데이터입니다. 우리는 삼자 데이터의 가장 이상적인 형태가 두 가지 상호 보완적인 제품으로 구성된다고 주장합니다. 첫째는 자극 회상 프로토콜을 통해 수집된 장기 전문가의 작업 기록이며, 둘째는 시뮬레이션된 부서 간 협업 환경, 즉 불명확한 목표를 공유 인프라에서 함께 처리하는 숙련된 엔지니어, 제품 관리자, 디자이너 및 데이터 과학자 팀입니다. 또한, 이러한 모든 데이터(삼자 데이터 또는 다른 형태의 데이터)가 파인 튜닝 연구자에게 품질을 입증하기 위해 거쳐야 할 4단계의 검증 프레임워크를 제시합니다. 이는 기계적 검증, 통계적 데이터 특성 분석, 탐색 실험, 그리고 사전 등록된 블라인드 평가를 포함합니다. 우리는 이러한 데이터가 이미 관련 분야에서 성숙한 방법론을 통해 12~18개월 이내에 수집될 수 있으며, 에이전트 학습에 대한 네 가지 주요 질문에 대한 실질적인 해답을 제공하며, 이 데이터가 소프트웨어 엔지니어링 분야의 단기적인 연구 목표에 명시적으로 포함되어야 한다고 주장합니다.
Frontier software engineering agents have saturated short-horizon benchmarks while regressing on the work that constitutes senior engineering: long-horizon, multi-engineer, ambiguous-specification deliverables. This paper takes a position on what training data is needed to close the gap. The substrate for the next generation of SWE agents is neither larger GitHub scrapes nor more solo-agent trajectories nor -- sufficient by itself -- open human-AI dialogue logs. It is triadic data: synchronized capture of the human-human conversations where engineering context is formed, the human-AI sessions where that context is partially consumed, and the multi-week cross-functional work that surrounds both. We argue that the canonical instantiation of triadic data is two complementary products: long-horizon expert trajectories captured under stimulated-recall protocols, and simulated cross-functional companies -- instrumented teams of senior engineers, product managers, designers, and data scientists working through ambiguous deliverables on shared infrastructure. We further specify a four-tier evidence framework through which any such corpus -- triadic or otherwise -- must justify its quality to a fine-tuning researcher: mechanical verification, statistical corpus characterization, probe experiments, and pre-registered blind evaluation. We argue that this data is capturable in 12-18 months with methods already mature in adjacent fields, that it is the empirical key to four open questions in agent training, and that the field's near-term research agenda should include it explicitly.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.