공허함의 파괴: 동료 심사 AI 점유에 대한 원고 내 숨겨진 안전 장치
Shattering the Echo Chamber: Hidden Safeguards in Manuscripts Against the AI Takeover of Peer Review
LLM(대규모 언어 모델)의 기능이 점점 더 발전함에 따라, 편집 위원회와 프로그램 위원회는 상업용 챗봇을 통해 동료 심사를 완전히 위탁하는 검토자들에 대한 우려를 표명하고 있습니다. 이러한 우려는 기존 챗봇이 과학적 혁신성을 평가하는 데 필요한 독립적인 비판적 사고 능력과 심층적인 추론 능력이 부족하다는 이전 연구 결과에 근거합니다. 이러한 우려를 완화할 수 있는 유망한 방법 중 하나는 챗봇이 생성하는 리뷰를 방해하거나 변경하는 숨겨진 지침을 원고에 포함시키는 것입니다. 그러나 기존 방법은 일반적으로 동일한 내용을 스트림 내에 주입하는 방식으로, 정제 또는 무력화될 가능성이 있어 직관적이고 취약합니다. 본 논문에서는 '종단 간 동료 심사 위탁(End-to-End Review Outsourcing)'을 새로운 위협으로 규정하고, PDF의 구조적-시각적 분리를 기반으로 하는 블랙박스, 장소에 구애받지 않는 방어 프레임워크인 'IntraGuard'를 제안합니다. 위원회 측 배포를 위해 설계된 IntraGuard는 거부 또는 경고 신호를 유발하는 명시적 전략과, 생성된 리뷰에 미리 정의된 텍스트 마커를 포함하는 암시적 전략을 모두 지원합니다. 이러한 전략은 세 가지 스트림 내 주입 메커니즘 중 하나를 통해 배포될 수 있으며, 각 메커니즘은 PDF의 기본 구조 내에 다양한 방어 텍스트 객체를 원활하게 포함시키면서 시각적 표현을 변경하지 않습니다. 7가지 실제 상업용 챗봇 환경과 다양한 학문 분야를 포괄하는 12개 장소에서의 광범위한 평가 결과, IntraGuard는 최대 84%의 방어 성공률을 달성했으며, 동시에 인간 검토자를 위한 동료 심사 일관성을 유지했습니다. IntraGuard는 가볍고 하드웨어에 의존하지 않으며, 일반적인 개인용 컴퓨터에서 원고당 평균 1초의 오버헤드만 발생합니다. 또한, 원고 정제 및 지침 간섭을 포함하는 11가지 적응 공격에 대한 평가를 수행했으며, 앙상블 방어를 구축하는 데 미치는 영향에 대해 논의합니다.
As LLMs become increasingly capable, editorial boards and program committees are growing concerned about reviewers who fully outsource peer review to commercial chatbots. This concern stems from prior findings that current chatbots lack the independent critical thinking and depth of reasoning required to assess scientific novelty. One promising direction for mitigating this concern is to embed hidden instructions into manuscripts that disrupt or alter chatbot-generated reviews. However, existing methods remain intuitive and fragile, as they typically rely on homogeneous payloads injected in an inter-stream manner, rendering them susceptible to sanitization or neutralization. In this paper, we identify End-to-End Review Outsourcing as an emerging threat and propose IntraGuard, a black-box, venue-agnostic defense framework grounded in the structural--visual decoupling inherent to the PDF. Designed for committee-side deployment, IntraGuard supports both explicit strategies that trigger refusal or warning signals, and implicit strategies that embed predefined textual markers into the generated review. These strategies can be deployed via any of three intra-stream injection mechanisms, each of which seamlessly embeds heterogeneous defensive text objects within the PDF's underlying structure without altering its visual presentation. Extensive evaluations across 7 real-world commercial chatbot settings and 12 venues spanning diverse disciplines show that IntraGuard achieves a defense success rate of up to 84%, while preserving peer-review invariance for human reviewers. IntraGuard is lightweight and hardware-independent, incurring an average overhead of only one second per manuscript on a commodity personal computer. We further evaluate 11 adaptive attacks spanning manuscript sanitization and instruction interference, and discuss the implications of constructing ensemble defenses.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.