SciCoQA: 과학 논문-코드 정렬을 위한 품질 보증
SciCoQA: Quality Assurance for Scientific Paper--Code Alignment
본 논문에서는 과학 논문과 해당 코드베이스 간의 불일치를 감지하여 충실한 구현을 보장하기 위한 데이터셋인 SciCoQA를 소개합니다. SciCoQA는 GitHub 이슈 및 재현성 논문에서 구축되었으며, 데이터셋의 규모를 확장하기 위해 논문-코드 불일치를 생성하는 합성 데이터 생성 방법을 제안합니다. 우리는 논문-코드 불일치를 상세히 분석하고, 발생하는 불일치를 더 잘 이해하기 위해 불일치 유형과 범주를 제시합니다. 총 611개의 논문-코드 불일치 데이터(실제 데이터 81개, 합성 데이터 530개)로 구성된 본 데이터셋은 AI, 물리학, 정량 생물학 등 다양한 계산 과학 분야를 포괄합니다. 21개의 LLM에 대한 평가 결과, SciCoQA는 특히 논문 세부 정보 누락, 긴 문맥 입력, 그리고 모델의 사전 훈련 코퍼스에 없는 데이터와 관련된 경우에 어려움을 야기합니다. 본 평가에서 가장 우수한 성능을 보인 모델인 GPT-5는 실제 논문-코드 불일치의 45.7%만을 감지할 수 있었습니다.
We present SciCoQA, a dataset for detecting discrepancies between scientific publications and their codebases to ensure faithful implementations. We construct SciCoQA from GitHub issues and reproducibility papers, and to scale our dataset, we propose a synthetic data generation method for constructing paper-code discrepancies. We analyze the paper-code discrepancies in detail and propose discrepancy types and categories to better understand the occurring mismatches. In total, our dataset consists of 611 paper-code discrepancies (81 real, 530 synthetic), spanning diverse computational science disciplines, including AI, Physics, Quantitative Biology, and others. Our evaluation of 21 LLMs highlights the difficulty of SciCoQA, particularly for instances involving omitted paper details, long-context inputs, and data outside the models' pre-training corpus. The best performing model in our evaluation, GPT-5, can only detect 45.7\% of real-world paper-code discrepancies.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.