2605.02244v1 May 04, 2026 cs.SE

코드 아래의 대화: 장기 프로젝트 소프트웨어 엔지니어링 에이전트를 위한 삼자 데이터

The Conversations Beneath the Code: Triadic Data for Long-Horizon Software Engineering Agents

Yelin Kim
Yelin Kim
Citations: 3,701
h-index: 3

최첨단 소프트웨어 엔지니어링 에이전트는 단기적인 성능 지표에서는 뛰어난 결과를 보이지만, 숙련된 엔지니어의 업무, 즉 장기적인 프로젝트, 다수의 엔지니어가 참여하는 협업, 그리고 불명확한 요구 사항을 처리하는 작업에서는 성능이 저하됩니다. 본 논문은 이러한 격차를 해소하기 위해 필요한 학습 데이터에 대한 관점을 제시합니다. 차세대 소프트웨어 엔지니어링 에이전트의 기반은 더 많은 GitHub 데이터 수집이나, 단일 에이전트의 학습 경로, 또는 인간-AI 대화 로그만으로는 충분하지 않습니다. 핵심은 삼자 데이터입니다. 이는 엔지니어링 맥락이 형성되는 인간-인간의 대화, 해당 맥락이 부분적으로 활용되는 인간-AI 세션, 그리고 이 모든 것을 둘러싸는 수 주기로 진행되는 부서 간 협업을 동기화하여 기록한 데이터입니다. 우리는 삼자 데이터의 가장 이상적인 형태가 두 가지 상호 보완적인 제품으로 구성된다고 주장합니다. 첫째는 자극 회상 프로토콜을 통해 수집된 장기 전문가의 작업 기록이며, 둘째는 시뮬레이션된 부서 간 협업 환경, 즉 불명확한 목표를 공유 인프라에서 함께 처리하는 숙련된 엔지니어, 제품 관리자, 디자이너 및 데이터 과학자 팀입니다. 또한, 이러한 모든 데이터(삼자 데이터 또는 다른 형태의 데이터)가 파인 튜닝 연구자에게 품질을 입증하기 위해 거쳐야 할 4단계의 검증 프레임워크를 제시합니다. 이는 기계적 검증, 통계적 데이터 특성 분석, 탐색 실험, 그리고 사전 등록된 블라인드 평가를 포함합니다. 우리는 이러한 데이터가 이미 관련 분야에서 성숙한 방법론을 통해 12~18개월 이내에 수집될 수 있으며, 에이전트 학습에 대한 네 가지 주요 질문에 대한 실질적인 해답을 제공하며, 이 데이터가 소프트웨어 엔지니어링 분야의 단기적인 연구 목표에 명시적으로 포함되어야 한다고 주장합니다.

Original Abstract

Frontier software engineering agents have saturated short-horizon benchmarks while regressing on the work that constitutes senior engineering: long-horizon, multi-engineer, ambiguous-specification deliverables. This paper takes a position on what training data is needed to close the gap. The substrate for the next generation of SWE agents is neither larger GitHub scrapes nor more solo-agent trajectories nor -- sufficient by itself -- open human-AI dialogue logs. It is triadic data: synchronized capture of the human-human conversations where engineering context is formed, the human-AI sessions where that context is partially consumed, and the multi-week cross-functional work that surrounds both. We argue that the canonical instantiation of triadic data is two complementary products: long-horizon expert trajectories captured under stimulated-recall protocols, and simulated cross-functional companies -- instrumented teams of senior engineers, product managers, designers, and data scientists working through ambiguous deliverables on shared infrastructure. We further specify a four-tier evidence framework through which any such corpus -- triadic or otherwise -- must justify its quality to a fine-tuning researcher: mechanical verification, statistical corpus characterization, probe experiments, and pre-registered blind evaluation. We argue that this data is capturable in 12-18 months with methods already mature in adjacent fields, that it is the empirical key to four open questions in agent training, and that the field's near-term research agenda should include it explicitly.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!