AdaptEval: 코드 조각 변환 능력을 평가하기 위한 대규모 언어 모델 벤치마크
AdaptEval: A Benchmark for Evaluating Large Language Models on Code Snippet Adaptation
최근 대규모 언어 모델(LLM)의 발전은 다양한 소프트웨어 엔지니어링 작업을 자동화했으며, 이러한 모델들의 능력을 평가하기 위한 벤치마크들이 등장하고 있습니다. 그러나 코드 재사용 과정에서 중요한 활동인 '코드 조각 변환'에 대한 LLM의 성능을 평가할 수 있는 벤치마크는 아직 존재하지 않아, 이 분야에서의 LLM의 실질적인 유용성이 불분명합니다. 이러한 간극을 메우기 위해, 우리는 LLM의 코드 조각 변환 능력을 평가하기 위한 벤치마크인 AdaptEval을 제안합니다. 기존 벤치마크와 달리, AdaptEval은 다음과 같은 세 가지 뚜렷한 특징을 포함합니다. 첫째, 실제적인 맥락. AdaptEval의 작업은 개발자의 실제 작업 방식을 반영하여 Stack Overflow 및 GitHub 커뮤니티에서 얻은 풍부한 맥락 정보를 포함합니다. 둘째, 다중 수준의 어노테이션. 각 작업은 작업 수준과 변환 수준 모두에서 요구 사항이 어노테이션되어, 다양한 변환 시나리오에서 LLM의 성능을 평가할 수 있도록 지원합니다. 셋째, 세분화된 평가. AdaptEval은 변환 수준 및 함수 수준 테스트를 결합한 두 단계의 테스트 프레임워크를 포함하여, 다양한 개별 변환에 대한 LLM의 성능을 평가할 수 있습니다. AdaptEval을 기반으로, 우리는 처음으로 여섯 개의 instruction-tuned LLM과 특히 세 가지 reasoning LLM을 코드 조각 변환 능력에 대해 경험적으로 평가했습니다. 실험 결과는 AdaptEval이 다양한 관점에서 LLM의 변환 능력을 평가할 수 있음을 보여줍니다. 또한, LLM의 현재 한계, 특히 명시적인 지침을 따르는 데 어려움을 겪는다는 점에 대한 중요한 통찰력을 제공합니다. 우리는 AdaptEval이 LLM의 코드 조각 변환 능력에 대한 추가적인 연구 및 개선을 촉진하고, 실제 응용 분야를 지원하는 데 기여할 수 있기를 바랍니다.
Recent advancements in large language models (LLMs) have automated various software engineering tasks, with benchmarks emerging to evaluate their capabilities. However, for adaptation, a critical activity during code reuse, there is no benchmark to assess LLMs' performance, leaving their practical utility in this area unclear. To fill this gap, we propose AdaptEval, a benchmark designed to evaluate LLMs on code snippet adaptation. Unlike existing benchmarks, AdaptEval incorporates the following three distinctive features: First, Practical Context. Tasks in AdaptEval are derived from developers' practices, preserving rich contextual information from Stack Overflow and GitHub communities. Second, Multi-granularity Annotation. Each task is annotated with requirements at both task and adaptation levels, supporting the evaluation of LLMs across diverse adaptation scenarios. Third, Fine-grained Evaluation. AdaptEval includes a two-tier testing framework combining adaptation-level and function-level tests, which enables evaluating LLMs' performance across various individual adaptations. Based on AdaptEval, we conduct the first empirical study to evaluate six instruction-tuned LLMs and especially three reasoning LLMs on code snippet adaptation. Experimental results demonstrate that AdaptEval enables the assessment of LLMs' adaptation capabilities from various perspectives. It also provides critical insights into their current limitations, particularly their struggle to follow explicit instructions. We hope AdaptEval can facilitate further investigation and enhancement of LLMs' capabilities in code snippet adaptation, supporting their real-world applications.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.