FactReview: 문헌 위치 정보 및 실행 기반 주장 검증을 통한 증거 기반 리뷰 시스템
FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification
머신 러닝 분야에서 제출되는 논문의 수가 증가하고 리뷰어의 시간이 제한됨에 따라, 동료 평가 시스템에 대한 압박이 커지고 있습니다. 대부분의 LLM 기반 리뷰 시스템은 논문 자체의 내용을 읽고 생성된 정보를 바탕으로 코멘트를 생성합니다. 이는 논문의 작성 품질에 민감하게 반응하며, 리뷰에 필요한 증거가 관련 연구나 공개된 코드에 있는 경우, 이러한 시스템은 효과적인 평가를 수행하기 어렵습니다. 본 논문에서는 FactReview라는 증거 기반 리뷰 시스템을 제안합니다. FactReview는 주요 주장 추출, 문헌 위치 정보 파악, 그리고 실행 기반의 주장 검증을 결합합니다. FactReview는 제출된 논문에 대해 주요 주장과 보고된 결과를 식별하고, 논문의 기술적 위치를 명확히 하기 위해 관련 연구를 검색합니다. 또한, 코드가 제공되는 경우, 제한된 자원 내에서 공개된 코드를 실행하여 주요 실증적인 주장을 검증합니다. 시스템은 간결한 리뷰와 증거 보고서를 생성하며, 각 주요 주장에 대해 '지원됨', '논문에서 지원됨', '부분적으로 지원됨', '모순됨', 또는 '결론 없음'의 다섯 가지 레이블을 부여합니다. CompGCN에 대한 사례 연구에서, FactReview는 링크 예측 및 노드 분류에 대해 논문에 보고된 결과와 유사한 결과를 재현했습니다. 하지만, 논문에서 제시된 전반적인 성능 주장은 완전히 뒷받침되지 않는다는 것을 보여줍니다. 예를 들어, MUTAG 그래프 분류에서 재현된 결과는 88.4%인 반면, 논문에 보고된 가장 강력한 기준 성능은 92.6%입니다. 따라서 해당 주장은 부분적으로만 지원됩니다. 더 넓은 관점에서, 이 사례는 AI가 동료 평가에서 최종 결정권자가 되는 것보다, 증거를 수집하고 리뷰어가 더욱 증거 기반의 평가를 수행하도록 돕는 도구로서 가장 유용하다는 것을 시사합니다. 관련 코드는 다음 주소에서 공개적으로 이용할 수 있습니다: https://github.com/DEFENSE-SEU/Review-Assistant.
Peer review in machine learning is under growing pressure from rising submission volume and limited reviewer time. Most LLM-based reviewing systems read only the manuscript and generate comments from the paper's own narrative. This makes their outputs sensitive to presentation quality and leaves them weak when the evidence needed for review lies in related work or released code. We present FactReview, an evidence-grounded reviewing system that combines claim extraction, literature positioning, and execution-based claim verification. Given a submission, FactReview identifies major claims and reported results, retrieves nearby work to clarify the paper's technical position, and, when code is available, executes the released repository under bounded budgets to test central empirical claims. It then produces a concise review and an evidence report that assigns each major claim one of five labels: Supported, Supported by the paper, Partially supported, In conflict, or Inconclusive. In a case study on CompGCN, FactReview reproduces results that closely match those reported for link prediction and node classification, yet also shows that the paper's broader performance claim across tasks is not fully sustained: on MUTAG graph classification, the reproduced result is 88.4%, whereas the strongest baseline reported in the paper remains 92.6%. The claim is therefore only partially supported. More broadly, this case suggests that AI is most useful in peer review not as a final decision-maker, but as a tool for gathering evidence and helping reviewers produce more evidence-grounded assessments. The code is public at https://github.com/DEFENSE-SEU/Review-Assistant.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.