DEFEND: 최소한의 저자 개입으로 피어 리뷰를 위한 자동 반론 생성 시스템
Defend: Automated Rebuttals for Peer Review with Minimal Author Guidance
과학 논문의 피어 리뷰 과정에서 반론 생성은 저자가 오해를 해소하고, 사실 오류를 수정하며, 심사위원에게 정확한 평가를 위한 지침을 제공하는 데 중요한 역할을 합니다. 본 논문에서는 대규모 언어 모델(LLM)이 반론 생성을 위해 직접 사용될 경우, 특정된 반박을 수행하고 정확한 사실적 근거를 유지하는 데 어려움을 겪는다는 점을 확인했습니다. 이러한 문제점을 해결하기 위해, 본 논문에서는 저자의 개입을 최소화하면서 자동 반론 생성의 근본적인 추론 과정을 명시적으로 수행하도록 설계된 LLM 기반 도구인 DEFEND를 소개합니다. DEFEND를 사용하면 저자는 처음부터 반론을 작성하는 대신, 최소한의 개입만으로 추론 과정을 안내할 수 있어 효율적이고 노력과 인지적 부담을 줄일 수 있습니다. 본 연구에서는 DEFEND를 다음 세 가지 방법과 비교했습니다. (i) LLM을 직접 사용하여 반론 생성 (DRG), (ii) LLM을 사용하여 부분적으로 반론 생성 (SWRG), (iii) 저자 개입 없이 부분적으로 반론을 순차적으로 생성하는 방법 (SA). 세밀한 평가를 위해, 본 연구에서는 ReviewCritique 데이터셋을 확장하여 심사 내용 분할, 문제점, 오류 유형, 반론-행동 레이블, 그리고 정답 반론 부분에 대한 정보를 추가했습니다. 실험 결과와 사용자 연구를 통해, LLM을 직접 사용하는 방법은 사실 정확성과 목표 지향적인 반박에서 낮은 성능을 보였습니다. 부분적인 생성 방법과 자동화된 순차적 접근 방식(저자 개입)은 사실 정확성과 반박의 강도를 크게 향상시키는 것으로 나타났습니다.
Rebuttal generation is a critical component of the peer review process for scientific papers, enabling authors to clarify misunderstandings, correct factual inaccuracies, and guide reviewers toward a more accurate evaluation. We observe that Large Language Models (LLMs) often struggle to perform targeted refutation and maintain accurate factual grounding when used directly for rebuttal generation, highlighting the need for structured reasoning and author intervention. To address this, in the paper, we introduce DEFEND an LLM based tool designed to explicitly execute the underlying reasoning process of automated rebuttal generation, while keeping the author-in-the-loop. As opposed to writing the rebuttals from scratch, the author needs to only drive the reasoning process with minimal intervention, leading an efficient approach with minimal effort and less cognitive load. We compare DEFEND against three other paradigms: (i) Direct rebuttal generation using LLM (DRG), (ii) Segment-wise rebuttal generation using LLM (SWRG), and (iii) Sequential approach (SA) of segment-wise rebuttal generation without author intervention. To enable finegrained evaluation, we extend the ReviewCritique dataset, creating review segmentation, deficiency, error type annotations, rebuttal-action labels, and mapping to gold rebuttal segments. Experimental results and a user study demonstrate that directly using LLMs perform poorly in factual correctness and targeted refutation. Segment-wise generation and the automated sequential approach with author-in-the-loop, substantially improve factual correctness and strength of refutation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.