CoCoReviewBench: AI 리뷰 시스템의 완전성 및 정확성을 평가하기 위한 벤치마크
CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers
AI 리뷰 시스템의 빠른 발전에도 불구하고, 이러한 시스템을 평가하는 것은 여전히 어려운 과제입니다. 기존 평가 지표는 AI 리뷰가 인간 리뷰와 얼마나 유사한지를 중시하는 경향이 있어, 정확성을 제대로 반영하지 못합니다. 그러나 인간 리뷰는 종종 중요한 문제의 일부만을 다루거나 오류를 포함할 수 있기 때문에, 신뢰할 수 있는 기준점으로 사용하기 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 범주별 벤치마크 데이터셋을 구축하고, 해당 인간 리뷰가 없을 경우 평가를 건너뛰어 완전성을 강화합니다. 또한, 리뷰어-저자-메타 리뷰 논의를 전문가 주석으로 활용하고, 신뢰할 수 없는 리뷰를 필터링하여 정확성을 높입니다. 마지막으로, 우리는 ICLR 및 NeurIPS에서 선별된 3,900편의 논문으로 구성된 CoCoReviewBench를 소개합니다. 분석 결과, AI 리뷰 시스템은 여전히 정확성 측면에서 한계가 있으며, 환각 현상에 취약하다는 것을 알 수 있었습니다. 또한, 추론 모델이 더 효과적인 리뷰어임을 보여주며, AI 리뷰 시스템 개선을 위한 향후 연구 방향을 제시합니다. 벤치마크 데이터 및 모델은 https://github.com/hexuandeng/CoCoReviewBench 에서 확인할 수 있습니다.
Despite the rapid development of AI reviewers, evaluating such systems remains challenging: metrics favor overlap with human reviews over correctness. However, since human reviews often cover only a subset of salient issues and sometimes contain mistakes, they are unreliable as gold references. To address this, we build category-specific benchmark subsets and skip evaluation when the corresponding human reviews are missing to strengthen Completeness. We also leverage reviewer--author--meta-review discussions as expert annotations and filter unreliable reviews accordingly to strengthen Correctness. Finally, we introduce CoCoReviewBench, which curates 3,900 papers from ICLR and NeurIPS to enable reliable and fine-grained evaluation of AI reviewers. Analysis shows that AI reviewers remain limited in correctness and are prone to hallucinations, and highlights reasoning models as more effective reviewers, motivating further directions for improving AI reviewers. Benchmarks and models are available at https://github.com/hexuandeng/CoCoReviewBench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.