RebuttalAgent: 마음 이론을 활용한 학술 논문 반론에서의 전략적 설득
RebuttalAgent: Strategic Persuasion in Academic Rebuttal via Theory of Mind
인공지능(AI)이 연구 워크플로우의 다양한 단계에 깊숙이 통합되고 놀라운 발전을 이루었지만, 학술 논문 반론은 여전히 중요한 과제로 남아 있으며, 충분히 연구되지 않았습니다. 이는 반론이 단순한 기술적인 논쟁이 아니라, 심각한 정보 비대칭 하에서 전략적인 의사소통을 요구하는 복잡한 과정이기 때문입니다. 결과적으로, 현재의 접근 방식은 표면적인 언어적 특징을 모방하는 경향이 있으며, 효과적인 설득에 필수적인 관점 수용 능력을 간과합니다. 본 논문에서는 마음 이론(Theory of Mind, ToM)을 기반으로 학술 논문 반론을 수행하는 첫 번째 프레임워크인 RebuttalAgent를 소개합니다. RebuttalAgent는 마음 이론-전략-응답(TSR) 프레임워크를 통해 심사위원의 심리 상태를 모델링하고, 설득 전략을 수립하며, 증거 기반의 응답을 생성합니다. 본 에이전트를 훈련하기 위해, 새로운 비판 및 개선 방식을 통해 합성된 대규모 데이터셋인 RebuttalBench를 구축했습니다. 우리의 훈련 과정은 두 단계로 구성됩니다. 먼저, 에이전트가 마음 이론 기반의 분석 및 전략 수립 능력을 갖추도록 지도 학습 방식으로 미세 조정을 수행합니다. 그 후, 자기 보상 메커니즘을 활용하여 확장 가능한 자기 개선을 위한 강화 학습 단계를 거칩니다. 신뢰성 있고 효율적인 자동 평가를 위해, 10만 건 이상의 다양한 출처의 반론 데이터로 훈련된 특수 평가 모델인 Rebuttal-RM을 개발했습니다. Rebuttal-RM은 인간의 선호도와 일관성을 보이는 높은 평가 정확도를 달성했으며, 강력한 평가 모델인 GPT-4.1을 능가합니다. 광범위한 실험 결과, RebuttalAgent는 자동화된 지표에서 평균 18.3% 더 우수한 성능을 보였으며, 자동화 및 인간 평가 모두에서 고급 독점 모델보다 뛰어난 성능을 보였습니다.
Although artificial intelligence (AI) has become deeply integrated into various stages of the research workflow and achieved remarkable advancements, academic rebuttal remains a significant and underexplored challenge. This is because rebuttal is a complex process of strategic communication under severe information asymmetry rather than a simple technical debate. Consequently, current approaches struggle as they largely imitate surface-level linguistics, missing the essential element of perspective-taking required for effective persuasion. In this paper, we introduce RebuttalAgent, the first framework to ground academic rebuttal in Theory of Mind (ToM), operationalized through a ToM-Strategy-Response (TSR) framework that models reviewer mental state, formulates persuasion strategy, and generates evidence-based response. To train our agent, we construct RebuttalBench, a large-scale dataset synthesized via a novel critique-and-refine approach. Our training process consists of two stages, beginning with a supervised fine-tuning phase to equip the agent with ToM-based analysis and strategic planning capabilities, followed by a reinforcement learning phase leveraging the self-reward mechanism for scalable self-improvement. For reliable and efficient automated evaluation, we further develop Rebuttal-RM, a specialized evaluator trained on over 100K samples of multi-source rebuttal data, which achieves scoring consistency with human preferences surpassing powerful judge GPT-4.1. Extensive experiments show RebuttalAgent significantly outperforms the base model by an average of 18.3% on automated metrics, while also outperforming advanced proprietary models across both automated and human evaluations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.