2601.10029v1 Jan 15, 2026 cs.AI

PaperScout: 프로세스 인지형 시퀀스 수준 정책 최적화를 통한 학술 논문 검색 자율 에이전트

PaperScout: An Autonomous Agent for Academic Paper Search with Process-Aware Sequence-Level Policy Optimization

Tingyue Pan
Tingyue Pan
Citations: 94
h-index: 5
Ouyang Jie
Ouyang Jie
Citations: 126
h-index: 6
Mingyue Cheng
Mingyue Cheng
Citations: 3
h-index: 1
Qingchuan Li
Qingchuan Li
Citations: 13
h-index: 2
Zirui Liu
Zirui Liu
Citations: 61
h-index: 4
Mingfan Pan
Mingfan Pan
Citations: 2
h-index: 1
Shuo Yu
Shuo Yu
Citations: 87
h-index: 4
Qi Liu
Qi Liu
Citations: 111
h-index: 5

학술 논문 검색은 과학 연구의 핵심 과제이지만, 기존의 대부분의 접근 방식은 복잡하고 조건부적인 질의를 처리하는 데 어려움을 겪는 경직되고 사전 정의된 워크플로에 의존하고 있습니다. 이러한 한계를 해결하기 위해 본 논문에서는 논문 검색을 순차적 의사 결정 과정으로 재구성한 자율 에이전트인 PaperScout를 제안합니다. 정적인 워크플로와 달리 PaperScout는 축적된 검색 맥락을 기반으로 검색 및 확장 도구의 호출 여부, 시점, 방법을 동적으로 결정합니다. 그러나 이러한 에이전트를 훈련하는 데는 근본적인 어려움이 존재합니다. 일반적으로 단일 턴(single-turn) 작업을 위해 설계된 표준 강화 학습 방법은 멀티 턴(multi-turn) 에이전트 작업에 적용될 때 입도(granularity) 불일치 문제를 겪으며, 이는 토큰 수준의 최적화가 시퀀스 수준 상호작용의 입도와 괴리되어 노이즈가 많은 기여도 할당(credit assignment)으로 이어지기 때문입니다. 이에 우리는 최적화를 에이전트-환경 상호작용과 정렬시키는 프로세스 인지형 시퀀스 수준 정책 최적화 방법인 PSPO(Proximal Sequence Policy Optimization)를 소개합니다. 합성 및 실제 벤치마크에 대한 포괄적인 실험 결과, PaperScout는 재현율과 관련성 측면에서 강력한 워크플로 기반 및 강화 학습 베이스라인을 크게 능가하였으며, 이를 통해 본 연구의 적응형 에이전트 프레임워크와 최적화 전략의 효과를 입증하였습니다.

Original Abstract

Academic paper search is a fundamental task in scientific research, yet most existing approaches rely on rigid, predefined workflows that struggle with complex, conditional queries. To address this limitation, we propose PaperScout, an autonomous agent that reformulates paper search as a sequential decision-making process. Unlike static workflows, PaperScout dynamically decides whether, when, and how to invoke search and expand tools based on accumulated retrieval context. However, training such agents presents a fundamental challenge: standard reinforcement learning methods, typically designed for single-turn tasks, suffer from a granularity mismatch when applied to multi-turn agentic tasks, where token-level optimization diverges from the granularity of sequence-level interactions, leading to noisy credit assignment. We introduce Proximal Sequence Policy Optimization (PSPO), a process-aware, sequence-level policy optimization method that aligns optimization with agent-environment interaction. Comprehensive experiments on both synthetic and real-world benchmarks demonstrate that PaperScout significantly outperforms strong workflow-driven and RL baselines in both recall and relevance, validating the effectiveness of our adaptive agentic framework and optimization strategy.

2 Citations
0 Influential
3 Altmetric
17.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!