IntentRL: 강화학습을 통한 개방형 심층 연구용 능동적 사용자 의도 파악 에이전트 학습
IntentRL: Training Proactive User-intent Agents for Open-ended Deep Research via Reinforcement Learning
심층 연구(Deep Research, DR) 에이전트는 대규모 웹 코퍼스에서 증거를 자율적으로 검색하고 종합하여 장문 보고서를 작성함으로써, 거대언어모델(LLM)을 매개변수 지식 너머로 확장하고 장기(long-horizon) 에이전트 패러다임을 가능하게 합니다. 그러나 실시간 대화형 어시스턴트와 달리, DR은 계산 비용이 높고 시간이 많이 소요되어 자율성-상호작용 딜레마를 야기합니다. 즉, 모호한 사용자 질의에 대해 높은 자율성을 부여하면 실행 시간이 길어지고 결과가 만족스럽지 못한 경우가 많습니다. 이 문제를 해결하기 위해, 우리는 장기 연구를 시작하기 전에 잠재된 사용자 의도를 명확히 파악하도록 능동적 에이전트를 훈련시키는 프레임워크인 IntentRL을 제안합니다. 개방형 연구 데이터의 부족을 해결하기 위해, 우리는 '얕은 수준에서 깊은 수준으로의(shallow-to-deep) 의도 정제 그래프'를 활용하여 소수의 시드 샘플을 고품질 대화 데이터로 확장하는 파이프라인을 도입합니다. 나아가 우리는 2단계 강화학습(RL) 전략을 채택합니다. 1단계에서는 오프라인 대화에 RL을 적용하여 일반적인 사용자 상호작용 행동을 효율적으로 학습하고, 2단계에서는 훈련된 에이전트와 사용자 시뮬레이터를 이용한 온라인 롤아웃을 수행하여 다양한 사용자 피드백에 대한 적응력을 강화합니다. 광범위한 실험을 통해 IntentRL이 의도 적중률과 다운스트림 작업 성능을 크게 향상시키며, 비공개 소스 DR 에이전트의 내장 명확화(clarify) 모듈 및 능동적 LLM 베이스라인보다 뛰어난 성능을 보임을 입증했습니다.
Deep Research (DR) agents extend Large Language Models (LLMs) beyond parametric knowledge by autonomously retrieving and synthesizing evidence from large web corpora into long-form reports, enabling a long-horizon agentic paradigm. However, unlike real-time conversational assistants, DR is computationally expensive and time-consuming, creating an autonomy-interaction dilemma: high autonomy on ambiguous user queries often leads to prolonged execution with unsatisfactory outcomes. To address this, we propose IntentRL, a framework that trains proactive agents to clarify latent user intents before starting long-horizon research. To overcome the scarcity of open-ended research data, we introduce a scalable pipeline that expands a few seed samples into high-quality dialogue turns via a shallow-to-deep intent refinement graph. We further adopt a two-stage reinforcement learning (RL) strategy: Stage I applies RL on offline dialogues to efficiently learn general user-interaction behavior, while Stage II uses the trained agent and a user simulator for online rollouts to strengthen adaptation to diverse user feedback. Extensive experiments show that IntentRL significantly improves both intent hit rate and downstream task performance, outperforming the built-in clarify modules of closed-source DR agents and proactive LLM baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.