KOCO-BENCH: 대규모 언어 모델이 소프트웨어 개발 분야의 전문 지식을 활용할 수 있는가?
KOCO-BENCH: Can Large Language Models Leverage Domain Knowledge in Software Development?
대규모 언어 모델(LLM)은 일반적인 프로그래밍에서는 뛰어난 성능을 보이지만, 특정 분야의 소프트웨어 개발에서는 어려움을 겪습니다. 따라서 LLM이 분야별 지식과 데이터를 학습하고 활용할 수 있도록 분야별 전문화 방법이 필요합니다. 그러나 기존의 분야별 코드 벤치마크는 LLM이 보유한 지식을 평가하는 데 초점을 맞추고 있어, LLM이 어떻게 새로운 지식을 습득하고 적용하는지를 평가하는 데 한계가 있으며, 분야별 전문화 방법을 개발하기 위한 명시적인 지식 코퍼스를 제공하지 않습니다. 이에, 우리는 실제 소프트웨어 개발 환경에서 분야별 전문화 방법을 평가하기 위해 설계된 새로운 벤치마크인 KOCO-BENCH를 소개합니다. KOCO-BENCH는 6개의 신흥 분야, 11개의 소프트웨어 프레임워크, 25개의 프로젝트로 구성되어 있으며, 엄격한 테스트 스위트가 포함된 함수 수준에서 프로젝트 수준에 이르는 분야별 코드 생성 작업과, 다양한 객관식 질문-답변을 통한 분야 지식 이해 작업을 포함하는 다중 수준의 평가 작업을 제공합니다. 기존 벤치마크가 단순히 평가를 위한 테스트 세트를 제공하는 것과 달리, KOCO-BENCH는 평가 작업을 해결하기 위해 지식 코퍼스에서 다양한 분야 지식(API, 규칙, 제약 조건 등)을 획득하고 적용해야 합니다. 우리의 평가 결과는 KOCO-BENCH가 최첨단 LLM에게 상당한 어려움을 제시한다는 것을 보여줍니다. 분야별 전문화 방법(예: SFT, RAG, kNN-LM)을 적용했음에도 불구하고, 성능 개선은 미미합니다. 가장 뛰어난 성능을 보인 코딩 에이전트인 Claude Code는 34.2%의 정확도를 기록했으며, 이는 더욱 효과적인 분야별 전문화 방법의 필요성을 시사합니다. KOCO-BENCH, 평가 코드 및 기본 모델을 다음 링크에서 확인할 수 있습니다: https://github.com/jiangxxxue/KOCO-bench.
Large language models (LLMs) excel at general programming but struggle with domain-specific software development, necessitating domain specialization methods for LLMs to learn and utilize domain knowledge and data. However, existing domain-specific code benchmarks cannot evaluate the effectiveness of domain specialization methods, which focus on assessing what knowledge LLMs possess rather than how they acquire and apply new knowledge, lacking explicit knowledge corpora for developing domain specialization methods. To this end, we present KOCO-BENCH, a novel benchmark designed for evaluating domain specialization methods in real-world software development. KOCO-BENCH contains 6 emerging domains with 11 software frameworks and 25 projects, featuring curated knowledge corpora alongside multi-granularity evaluation tasks including domain code generation (from function-level to project-level with rigorous test suites) and domain knowledge understanding (via multiple-choice Q&A). Unlike previous benchmarks that only provide test sets for direct evaluation, KOCO-BENCH requires acquiring and applying diverse domain knowledge (APIs, rules, constraints, etc.) from knowledge corpora to solve evaluation tasks. Our evaluations reveal that KOCO-BENCH poses significant challenges to state-of-the-art LLMs. Even with domain specialization methods (e.g., SFT, RAG, kNN-LM) applied, improvements remain marginal. Best-performing coding agent, Claude Code, achieves only 34.2%, highlighting the urgent need for more effective domain specialization methods. We release KOCO-BENCH, evaluation code, and baselines to advance further research at https://github.com/jiangxxxue/KOCO-bench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.