2601.02871v2 Jan 06, 2026 cs.AI

SimRPD: 시뮬레이터 기반 데이터 평가 및 선별을 통한 채용 주도형 대화 에이전트 최적화

SimRPD: Optimizing Recruitment Proactive Dialogue Agents through Simulator-Based Data Evaluation and Selection

Siyuan Liu
Siyuan Liu
Citations: 5
h-index: 1
Ruqian Shi
Ruqian Shi
Citations: 0
h-index: 0
Dunqian Liu
Dunqian Liu
Citations: 12
h-index: 2
Qingyang Dai
Qingyang Dai
Citations: 12
h-index: 1
Haojun Xu
Haojun Xu
Citations: 5
h-index: 1
Hua Xu
Hua Xu
Citations: 1
h-index: 1
Huanzhu He
Huanzhu He
Citations: 10
h-index: 1
Yafei Liu
Yafei Liu
Citations: 90
h-index: 3
Xiaolin Lin
Xiaolin Lin
Citations: 66
h-index: 3
Ke Ma
Ke Ma
Citations: 36
h-index: 3
Sicheng Zhou
Sicheng Zhou
Citations: 26
h-index: 2
Zhiyong Cao
Zhiyong Cao
Citations: 98
h-index: 5
Hao Wang
Hao Wang
Citations: 181
h-index: 6
Sijia Yao
Sijia Yao
Citations: 8
h-index: 2

과업 지향적 주도형 대화 에이전트는 채용 분야에서, 특히 사설 채널로의 전환을 위한 소셜 미디어 연락처 확보와 같은 특정 비즈니스 성과를 달성하도록 대화를 유도하는 데 있어 중추적인 역할을 한다. 지도 미세 조정과 강화 학습이 이러한 에이전트를 훈련하는 데 효과적인 것으로 입증되었지만, 그 성능은 고품질의 목표 지향적 도메인 특화 훈련 데이터가 부족하여 크게 제약받고 있다. 이러한 문제를 해결하기 위해 본 논문에서는 채용 주도형 대화 에이전트 훈련을 위한 3단계 프레임워크인 SimRPD를 제안한다. 첫째, 멀티턴 온라인 대화를 통해 대규모 대화 데이터를 합성할 수 있는 고충실도(high-fidelity) 사용자 시뮬레이터를 개발한다. 둘째, 전역적 수준과 개별 수준의 지표를 모두 포함하는 '의도 사슬(Chain-of-Intention, CoI)' 기반의 다차원 평가 프레임워크를 도입하여 시뮬레이터를 포괄적으로 평가하고 고품질 데이터를 효과적으로 선별한다. 마지막으로, 선별된 데이터셋을 사용하여 채용 주도형 대화 에이전트를 훈련한다. 실제 채용 시나리오에서의 실험 결과, SimRPD는 기존의 시뮬레이터 기반 데이터 선별 전략보다 우수한 성능을 보였으며, 이는 산업 현장 적용에 대한 실용적 가치와 다른 비즈니스 지향 대화 시나리오로의 잠재적 적용 가능성을 시사한다.

Original Abstract

Task-oriented proactive dialogue agents play a pivotal role in recruitment, particularly for steering conversations towards specific business outcomes, such as acquiring social-media contacts for private-channel conversion. Although supervised fine-tuning and reinforcement learning have proven effective for training such agents, their performance is heavily constrained by the scarcity of high-quality, goal-oriented domain-specific training data. To address this challenge, we propose SimRPD, a three-stage framework for training recruitment proactive dialogue agents. First, we develop a high-fidelity user simulator to synthesize large-scale conversational data through multi-turn online dialogue. Then we introduce a multi-dimensional evaluation framework based on Chain-of-Intention (CoI) to comprehensively assess the simulator and effectively select high-quality data, incorporating both global-level and instance-level metrics. Finally, we train the recruitment proactive dialogue agent on the selected dataset. Experiments in a real-world recruitment scenario demonstrate that SimRPD outperforms existing simulator-based data selection strategies, highlighting its practical value for industrial deployment and its potential applicability to other business-oriented dialogue scenarios.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!