2601.05542v1 Jan 09, 2026 cs.SE

LLM 기반 테스트 오라클 생성 방식 이해

Understanding LLM-Driven Test Oracle Generation

Adam Bodicoat
Adam Bodicoat
Citations: 2
h-index: 1
Gunel Jahangirova
Gunel Jahangirova
Citations: 1,210
h-index: 13
Valerio Terragni
Valerio Terragni
Citations: 274
h-index: 9

자동 단위 테스트 생성은 소프트웨어 품질을 향상시키는 동시에 테스트 작성을 위한 시간과 노력을 줄이는 것을 목표로 합니다. 그러나 기존 기술은 주로 테스트 대상 클래스의 구현된 동작을 기반으로 하는 회귀 테스트 오라클을 생성합니다. 이러한 기술은 '오라클 문제', 즉 프로그램의 올바른 동작과 잘못된 동작을 구별하는 문제에 대한 해결책을 제시하지 못합니다. 최근 등장한 기초 모델(Foundation Models, FMs), 특히 대규모 언어 모델(Large Language Models, LLMs)은 의도된 동작을 반영하는 테스트 오라클을 생성할 수 있는 새로운 기회를 제공합니다. 이는 LLM을 활용하여 자연어 프롬프트에 의해 소프트웨어 생성 및 테스트가 주도되는 '프롬프트웨어(Promptware)' 환경을 구축할 수 있게 합니다. 본 논문에서는 LLM이 소프트웨어 오류를 드러내는 테스트 오라클을 생성하는 데 얼마나 효과적인지에 대한 경험적 연구를 제시합니다. 다양한 프롬프트 전략과 컨텍스트 입력 수준이 LLM 생성 오라클의 품질에 미치는 영향을 조사합니다. 연구 결과는 FM 시대의 LLM 기반 오라클 생성의 장단점에 대한 통찰력을 제공하며, LLM의 기능에 대한 이해를 높이고 이 분야의 미래 연구를 촉진할 것입니다.

Original Abstract

Automated unit test generation aims to improve software quality while reducing the time and effort required for creating tests manually. However, existing techniques primarily generate regression oracles that predicate on the implemented behavior of the class under test. They do not address the oracle problem: the challenge of distinguishing correct from incorrect program behavior. With the rise of Foundation Models (FMs), particularly Large Language Models (LLMs), there is a new opportunity to generate test oracles that reflect intended behavior. This positions LLMs as enablers of Promptware, where software creation and testing are driven by natural-language prompts. This paper presents an empirical study on the effectiveness of LLMs in generating test oracles that expose software failures. We investigate how different prompting strategies and levels of contextual input impact the quality of LLM-generated oracles. Our findings offer insights into the strengths and limitations of LLM-based oracle generation in the FM era, improving our understanding of their capabilities and fostering future research in this area.

2 Citations
0 Influential
6.5 Altmetric
34.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!