2601.22832v1 Jan 30, 2026 cs.SE

메타의 실시간 오류 검출 테스트 생성

Just-in-Time Catching Test Generation at Meta

M. Becker
M. Becker
Citations: 9
h-index: 1
Yifei Chen
Yifei Chen
Citations: 23
h-index: 2
N. Cochran
N. Cochran
Citations: 7
h-index: 2
Pouyan Ghasemi
Pouyan Ghasemi
Citations: 2
h-index: 1
Abhishek Gulati
Abhishek Gulati
Citations: 26
h-index: 1
Mark Harman
Mark Harman
Citations: 397
h-index: 4
Zachary Haluza
Zachary Haluza
Citations: 0
h-index: 0
Mehrdad Honarkhah
Mehrdad Honarkhah
Citations: 386
h-index: 3
Hervé Robert
Hervé Robert
Citations: 26
h-index: 1
Jiacheng Liu
Jiacheng Liu
Citations: 196
h-index: 6
Weining Liu
Weining Liu
Citations: 58
h-index: 4
Sreeja Thummala
Sreeja Thummala
Citations: 2
h-index: 1
Xiaoning Yang
Xiaoning Yang
Citations: 40
h-index: 4
Rui Xin
Rui Xin
Citations: 162
h-index: 4
Sophie Zeng
Sophie Zeng
Citations: 7
h-index: 2

본 논문에서는 메타에서 개발한 실시간 오류 검출 테스트 생성 시스템을 소개합니다. 이 시스템은 수억 라인의 코드를 포함하는 대규모 백엔드 시스템에서 버그를 예방하기 위해 설계되었습니다. 기존의 안전 검증 테스트와 달리, 오류 검출 테스트는 의도적으로 실패하도록 설계되어 코드가 배포되기 전에 잠재적인 문제를 발견하는 것을 목표로 합니다. 주요 과제는 오탐으로 인한 개발 생산성 저하를 최소화하는 것입니다. 22,126개의 생성된 테스트를 분석한 결과, 코드 변경 사항을 고려하는 방법이 기존 안전 검증 테스트보다 4배, 그리고 무작위로 실패하는 테스트보다 20배 더 효과적인 후보 오류 검출 테스트를 생성함을 확인했습니다. 오탐 문제를 해결하기 위해 규칙 기반 및 LLM 기반 평가 도구를 사용했습니다. 이러한 평가 도구는 인간 검토 부담을 70%까지 줄여줍니다. 통계적 분석 결과, 인간이 수락한 코드 변경 사항은 오탐 가능성이 훨씬 높았고, 인간이 거부한 변경 사항은 실제 오류 가능성이 훨씬 높았습니다. 엔지니어들에게 41개의 후보 오류 검출 테스트를 보고했으며, 이 중 8개가 실제 오류로 확인되었고, 이 오류들이 발견되지 않았더라면 심각한 시스템 장애를 초래했을 것입니다. 전반적으로, 본 연구의 결과는 실시간 오류 검출 테스트가 확장 가능하며, 산업 현장에 적용 가능하며, 실제 시스템에 심각한 오류가 도달하는 것을 방지한다는 것을 보여줍니다.

Original Abstract

We report on Just-in-Time catching test generation at Meta, designed to prevent bugs in large scale backend systems of hundreds of millions of line of code. Unlike traditional hardening tests, which pass at generation time, catching tests are meant to fail, surfacing bugs before code lands. The primary challenge is to reduce development drag from false positive test failures. Analyzing 22,126 generated tests, we show code-change-aware methods improve candidate catch generation 4x over hardening tests and 20x over coincidentally failing tests. To address false positives, we use rule-based and LLM-based assessors. These assessors reduce human review load by 70%. Inferential statistical analysis showed that human-accepted code changes are assessed to have significantly more false positives, while human-rejected changes have significantly more true positives. We reported 41 candidate catches to engineers; 8 were confirmed to be true positives, 4 of which would have led to serious failures had they remained uncaught. Overall, our results show that Just-in-Time catching is scalable, industrially applicable, and that it prevents serious failures from reaching production.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!