2604.04074v2 Apr 05, 2026 cs.AI

FactReview: 문헌 위치 정보 및 실행 기반 주장 검증을 통한 증거 기반 리뷰 시스템

FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification

Min-Ling Zhang
Min-Ling Zhang
Citations: 27
h-index: 3
Hangrui Xu
Hangrui Xu
Citations: 6
h-index: 2
Ling Yue
Ling Yue
Rensselaer Polytechnic Institute
Citations: 197
h-index: 7
Chaoqian Ouyang
Chaoqian Ouyang
Citations: 4
h-index: 1
Libin Zheng
Libin Zheng
Citations: 23
h-index: 3
Shaowu Pan
Shaowu Pan
Citations: 19
h-index: 3
Shimin Di
Shimin Di
Citations: 21
h-index: 3

머신 러닝 분야에서 제출되는 논문의 수가 증가하고 리뷰어의 시간이 제한됨에 따라, 동료 평가 시스템에 대한 압박이 커지고 있습니다. 대부분의 LLM 기반 리뷰 시스템은 논문 자체의 내용을 읽고 생성된 정보를 바탕으로 코멘트를 생성합니다. 이는 논문의 작성 품질에 민감하게 반응하며, 리뷰에 필요한 증거가 관련 연구나 공개된 코드에 있는 경우, 이러한 시스템은 효과적인 평가를 수행하기 어렵습니다. 본 논문에서는 FactReview라는 증거 기반 리뷰 시스템을 제안합니다. FactReview는 주요 주장 추출, 문헌 위치 정보 파악, 그리고 실행 기반의 주장 검증을 결합합니다. FactReview는 제출된 논문에 대해 주요 주장과 보고된 결과를 식별하고, 논문의 기술적 위치를 명확히 하기 위해 관련 연구를 검색합니다. 또한, 코드가 제공되는 경우, 제한된 자원 내에서 공개된 코드를 실행하여 주요 실증적인 주장을 검증합니다. 시스템은 간결한 리뷰와 증거 보고서를 생성하며, 각 주요 주장에 대해 '지원됨', '논문에서 지원됨', '부분적으로 지원됨', '모순됨', 또는 '결론 없음'의 다섯 가지 레이블을 부여합니다. CompGCN에 대한 사례 연구에서, FactReview는 링크 예측 및 노드 분류에 대해 논문에 보고된 결과와 유사한 결과를 재현했습니다. 하지만, 논문에서 제시된 전반적인 성능 주장은 완전히 뒷받침되지 않는다는 것을 보여줍니다. 예를 들어, MUTAG 그래프 분류에서 재현된 결과는 88.4%인 반면, 논문에 보고된 가장 강력한 기준 성능은 92.6%입니다. 따라서 해당 주장은 부분적으로만 지원됩니다. 더 넓은 관점에서, 이 사례는 AI가 동료 평가에서 최종 결정권자가 되는 것보다, 증거를 수집하고 리뷰어가 더욱 증거 기반의 평가를 수행하도록 돕는 도구로서 가장 유용하다는 것을 시사합니다. 관련 코드는 다음 주소에서 공개적으로 이용할 수 있습니다: https://github.com/DEFENSE-SEU/Review-Assistant.

Original Abstract

Peer review in machine learning is under growing pressure from rising submission volume and limited reviewer time. Most LLM-based reviewing systems read only the manuscript and generate comments from the paper's own narrative. This makes their outputs sensitive to presentation quality and leaves them weak when the evidence needed for review lies in related work or released code. We present FactReview, an evidence-grounded reviewing system that combines claim extraction, literature positioning, and execution-based claim verification. Given a submission, FactReview identifies major claims and reported results, retrieves nearby work to clarify the paper's technical position, and, when code is available, executes the released repository under bounded budgets to test central empirical claims. It then produces a concise review and an evidence report that assigns each major claim one of five labels: Supported, Supported by the paper, Partially supported, In conflict, or Inconclusive. In a case study on CompGCN, FactReview reproduces results that closely match those reported for link prediction and node classification, yet also shows that the paper's broader performance claim across tasks is not fully sustained: on MUTAG graph classification, the reproduced result is 88.4%, whereas the strongest baseline reported in the paper remains 92.6%. The claim is therefore only partially supported. More broadly, this case suggests that AI is most useful in peer review not as a final decision-maker, but as a tool for gathering evidence and helping reviewers produce more evidence-grounded assessments. The code is public at https://github.com/DEFENSE-SEU/Review-Assistant.

0 Citations
0 Influential
28.993061443341 Altmetric
145.0 Score
Original PDF
2

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!