Tricky$^2$: 인간 및 LLM 오류 상호작용 평가를 위한 벤치마크
Tricky$^2$: Towards a Benchmark for Evaluating Human and LLM Error Interactions
대규모 언어 모델(LLM)은 소프트웨어 개발 워크플로우에 점점 더 많이 통합되고 있지만, 종종 인간의 오류와는 다른 미묘한 논리 오류나 데이터 오용 오류를 발생시킵니다. 이러한 두 가지 유형의 오류가 어떻게 상호 작용하는지 연구하기 위해, 우리는 Tricky$^2$를 구축했습니다. Tricky$^2$는 기존의 인간이 작성한 결함을 포함하는 TrickyBugs 데이터 세트에 GPT-5와 OpenAI-oss-20b가 생성한 오류를 C++, Python, Java 프로그램에 주입하여 구성된 하이브리드 데이터 세트입니다. 우리는 분류학 기반의 프롬프트 프레임워크를 사용하여 기계에서 생성한 오류를 생성하는 동시에 원래의 인간이 작성한 결함과 프로그램 구조를 유지했습니다. 결과적으로 생성된 데이터 세트는 인간만 생성된 오류, LLM만 생성된 오류, 그리고 인간과 LLM이 모두 생성한 오류로 구성되어 있으며, 이를 통해 혼합된 오류의 동작, 다중 오류 수정의 견고성, 그리고 인간-기계 하이브리드 코드의 신뢰성을 분석할 수 있습니다. 본 논문에서는 데이터 세트 구축 파이프라인을 설명하고, 분류, 오류 위치 추적, 그리고 오류 수정 작업에 대한 소규모의 기초 평가를 통해 데이터 세트의 활용 방법을 보여줍니다.
Large language models (LLMs) are increasingly integrated into software development workflows, yet they often introduce subtle logic or data-misuse errors that differ from human bugs. To study how these two error types interact, we construct Tricky$^2$, a hybrid dataset that augments the existing TrickyBugs corpus of human-written defects with errors injected by both GPT-5 and OpenAI-oss-20b across C++, Python, and Java programs. Our approach uses a taxonomy-guided prompting framework to generate machine-originated bugs while preserving original human defects and program structure. The resulting corpus spans human-only, LLM-only, and human+LLM splits, enabling analysis of mixed-origin error behavior, multi-bug repair robustness, and reliability in hybrid human-machine code. This paper outlines the dataset construction pipeline and illustrates its use through small-scale baseline evaluations of classification, localization, and repair tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.