DeepSurvey-Bench: 자동 생성된 과학 서베이의 학술적 가치 평가
DeepSurvey-Bench: Evaluating Academic Value of Automatically Generated Scientific Survey
자동 학술 서베이 생성 기술의 급속한 발전으로 인해 생성된 서베이의 품질을 평가하기 위한 포괄적인 벤치마크 구축이 점점 더 중요해지고 있습니다. 기존의 거의 모든 평가 벤치마크는 인용 수나 구조적 일관성과 같은 불완전한 선정 기준에 의존하여 사람이 작성한 서베이를 정답 데이터셋(ground truth)으로 선택한 다음, 구조적 품질이나 참고문헌 관련성과 같은 표면적인 지표를 사용하여 생성된 서베이를 평가합니다. 그러나 이러한 벤치마크에는 두 가지 핵심적인 문제가 있습니다. (1) 학술적 차원의 주석이 부족하여 정답 서베이 데이터셋을 신뢰할 수 없다는 점, (2) 평가 지표가 논리적 일관성과 같은 서베이의 표면적 품질에만 초점을 맞춘다는 점입니다. 이 두 가지 문제로 인해 기존 벤치마크는 핵심 연구 목표 및 다양한 연구에 대한 비판적 분석과 같은 심층적인 "학술적 가치"를 평가할 수 없습니다. 이러한 문제를 해결하기 위해, 우리는 생성된 서베이의 학술적 가치를 포괄적으로 평가하도록 설계된 새로운 벤치마크인 DeepSurvey-Bench를 제안합니다. 구체적으로, 우리의 벤치마크는 정보적 가치, 학술적 소통 가치, 연구 지도 가치의 세 가지 차원을 포괄하는 종합적인 학술적 가치 평가 기준을 제안합니다. 이 기준을 바탕으로 우리는 학술적 가치 주석이 포함된 신뢰할 수 있는 데이터셋을 구축하고, 생성된 서베이의 심층적인 학술적 가치를 평가합니다. 광범위한 실험 결과, 우리의 벤치마크가 생성된 서베이의 학술적 가치를 평가하는 데 있어 인간의 평가와 매우 높은 일치도를 보임을 입증하였습니다.
The rapid development of automated scientific survey generation technology has made it increasingly important to establish a comprehensive benchmark to evaluate the quality of generated surveys.Nearly all existing evaluation benchmarks rely on flawed selection criteria such as citation counts and structural coherence to select human-written surveys as the ground truth survey datasets, and then use surface-level metrics such as structural quality and reference relevance to evaluate generated surveys.However, these benchmarks have two key issues: (1) the ground truth survey datasets are unreliable because of a lack academic dimension annotations; (2) the evaluation metrics only focus on the surface quality of the survey such as logical coherence. Both issues lead to existing benchmarks cannot assess to evaluate their deep "academic value", such as the core research objectives and the critical analysis of different studies. To address the above problems, we propose DeepSurvey-Bench, a novel benchmark designed to comprehensively evaluate the academic value of generated surveys. Specifically, our benchmark propose a comprehensive academic value evaluation criteria covering three dimensions: informational value, scholarly communication value, and research guidance value. Based on this criteria, we construct a reliable dataset with academic value annotations, and evaluate the deep academic value of the generated surveys. Extensive experimental results demonstrate that our benchmark is highly consistent with human performance in assessing the academic value of generated surveys.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.