MIST-RL: 강화 학습을 통한 변이 기반 점진적 테스트 스위트
MIST-RL: Mutation-based Incremental Suite Testing via Reinforcement Learning
대규모 언어 모델(LLM)은 종종 처음 시도에서 올바른 코드를 생성하지 못하며, 생성된 단위 테스트를 솔루션을 검증하는 데 사용해야 합니다. 최근 검증 방법들이 성공을 거두었음에도 불구하고, 여전히 "양적 확장" 패러다임에 제약받고 있습니다. 이러한 무차별적인 접근 방식은 중요한 한계를 가지고 있으며, 이는 결함 탐지에는 감소하는 효율성을 가져오면서 동시에 심각한 테스트 중복을 초래합니다. 이러한 문제를 해결하기 위해, 우리는 "효율성 기반" 접근 방식에 초점을 맞춘 MIST-RL (Mutation-based Incremental Suite Testing via Reinforcement Learning) 프레임워크를 제안합니다. 우리는 테스트 생성을 그룹 상대 정책 최적화(GRPO)를 통해 최적화되는 순차적 의사 결정 문제로 정의합니다. 특히, 우리는 새로운 결함 발견을 장려하고 기능적으로 동일한 단정을 억제하는 새로운 점진적 변이 보상과 동적 페널티를 도입했습니다. HumanEval+ 및 MBPP+ 데이터셋에 대한 실험 결과, MIST-RL은 최첨단 기준 모델보다 우수한 성능을 보였습니다. MIST-RL은 변이 점수를 28.5% 향상시키면서 동시에 테스트 케이스 수를 19.3% 줄였습니다. 또한, 이러한 간결하고 효율적인 테스트는 우수한 검증 도구 역할을 하며, HumanEval+에서 10개의 후보 샘플을 사용하여 코드 재순위 정확도를 SOTA 기준 모델보다 3.05% 향상시켰습니다. 소스 코드 및 데이터는 추가 자료에서 제공됩니다.
Large Language Models (LLMs) often fail to generate correct code on the first attempt, which requires using generated unit tests as verifiers to validate the solutions. Despite the success of recent verification methods, they remain constrained by a "scaling-by-quantity" paradigm. This brute-force approach suffers from a critical limitation: it yields diminishing returns in fault detection while causing severe test redundancy. To address this, we propose MIST-RL (Mutation-based Incremental Suite Testing via Reinforcement Learning), a framework that shifts the focus to "scaling-by-utility". We formulate test generation as a sequential decision process optimized via Group Relative Policy Optimization (GRPO). Specifically, we introduce a novel incremental mutation reward combined with dynamic penalties, which incentivizes the model to discover new faults while it suppresses functionally equivalent assertions. Experiments on HumanEval+ and MBPP+ demonstrate that MIST-RL outperforms state-of-the-art baselines. It achieves a +28.5% higher mutation score while reducing the number of test cases by 19.3%. Furthermore, we show that these compact, high-utility tests serve as superior verifiers, which improves downstream code reranking accuracy on HumanEval+ by 3.05% over the SOTA baseline with 10 candidate samples. The source code and data are provided in the supplementary material.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.