2601.14289v1 Jan 14, 2026 cs.CL

RPC-Bench: 연구 논문 이해를 위한 세밀한 벤치마크

RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension

Shu Zhao
Shu Zhao
Citations: 41
h-index: 3
Yelin Chen
Yelin Chen
Citations: 29
h-index: 1
Fanjin Zhang
Fanjin Zhang
Citations: 2,525
h-index: 10
Suping Sun
Suping Sun
Citations: 3
h-index: 1
Yunhe Pang
Yunhe Pang
Citations: 36
h-index: 3
Yuanchun Wang
Yuanchun Wang
Renmin University of China
Citations: 72
h-index: 5
Jian Song
Jian Song
Citations: 28
h-index: 1
Xiaoyan Li
Xiaoyan Li
Citations: 86
h-index: 4
Lei Hou
Lei Hou
Citations: 612
h-index: 11
Jie Tang
Jie Tang
Citations: 51
h-index: 3
Juanzi Li
Juanzi Li
Citations: 6,351
h-index: 32

기초 모델은 전문적인 과학적 담론과 복잡한 그림 및 표로 인해 연구 논문을 이해하는 데 어려움을 겪습니다. 그러나 기존 벤치마크는 규모 면에서 제한적인 세밀한 평가를 제공합니다. 이러한 격차를 해소하기 위해, 우리는 고품질 컴퓨터 과학 논문의 리뷰-반박 과정을 기반으로 구축된 대규모 질의응답 벤치마크인 RPC-Bench를 소개합니다. RPC-Bench는 15,000개의 인간 검증된 질의응답 쌍을 포함하고 있습니다. 우리는 과학 연구 흐름에 맞춰 설계된 세밀한 분류 체계를 통해 모델이 학문적 맥락에서 '왜', '무엇', '어떻게' 질문을 이해하고 답변하는 능력을 평가합니다. 또한, 대규모 라벨링 및 품질 관리를 지원하기 위한 정교한 LLM-인간 상호 작용 어노테이션 프레임워크를 정의했습니다. LLM-as-a-Judge 패러다임을 따르면서, 우리는 모델을 정확성-완전성 및 간결성을 기준으로 평가하는 확장 가능한 프레임워크를 개발했으며, 이는 인간의 판단과 높은 일관성을 보입니다. 실험 결과, 가장 강력한 모델(GPT-5)조차 정확성-완전성 측면에서 68.2%의 성능을 보이지만, 간결성을 고려하면 37.46%로 감소하여, 정밀한 학술 논문 이해에 상당한 격차가 있음을 보여줍니다. 저희의 코드와 데이터는 https://rpc-bench.github.io/ 에서 이용하실 수 있습니다.

Original Abstract

Understanding research papers remains challenging for foundation models due to specialized scientific discourse and complex figures and tables, yet existing benchmarks offer limited fine-grained evaluation at scale. To address this gap, we introduce RPC-Bench, a large-scale question-answering benchmark built from review-rebuttal exchanges of high-quality computer science papers, containing 15K human-verified QA pairs. We design a fine-grained taxonomy aligned with the scientific research flow to assess models' ability to understand and answer why, what, and how questions in scholarly contexts. We also define an elaborate LLM-human interaction annotation framework to support large-scale labeling and quality control. Following the LLM-as-a-Judge paradigm, we develop a scalable framework that evaluates models on correctness-completeness and conciseness, with high agreement to human judgment. Experiments reveal that even the strongest models (GPT-5) achieve only 68.2% correctness-completeness, dropping to 37.46% after conciseness adjustment, highlighting substantial gaps in precise academic paper understanding. Our code and data are available at https://rpc-bench.github.io/.

0 Citations
0 Influential
15.5 Altmetric
77.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!