PeopleSearchBench: AI 기반 인물 검색 플랫폼 성능 평가를 위한 다차원 벤치마크
PeopleSearchBench: A Multi-Dimensional Benchmark for Evaluating AI-Powered People Search Platforms
AI 기반 인물 검색 플랫폼은 채용, 영업, 전문 네트워크 구축 등 다양한 분야에서 활용되고 있지만, 이러한 플랫폼의 성능을 평가할 수 있는 널리 인정되는 벤치마크는 아직 존재하지 않습니다. 본 연구에서는 PeopleSearchBench라는 오픈 소스 벤치마크를 소개합니다. 이 벤치마크는 4가지 사용 사례(기업 채용, B2B 영업, 명확한 답변을 제공하는 전문가 검색, 인플루언서/KOL 발굴)에 걸쳐 119개의 실제 쿼리를 사용하여 4개의 인물 검색 플랫폼을 비교합니다. 핵심적인 기여는 'Criteria-Grounded Verification(기준 기반 검증)'이라는 사실 기반 관련성 파이프라인을 사용하는 것입니다. 이 파이프라인은 각 쿼리에서 명시적이고 검증 가능한 기준을 추출하고, 웹 검색을 통해 검색된 인물이 이러한 기준을 충족하는지 여부를 판단합니다. 이를 통해 주관적인 LLM 평가 점수 대신 사실 기반의 이진 관련성 판단을 제공합니다. 시스템은 관련성 정확도(padded nDCG@10), 효과적인 커버리지(작업 완료 및 적격 결과 수), 정보 유용성(프로필 완성도 및 유용성)의 세 가지 측면에서 평가되며, 각 측면은 동일한 가중치를 부여하여 전체 점수를 계산합니다. Lessie라는 특화된 AI 인물 검색 에이전트가 가장 우수한 성능을 보이며, 2위 시스템보다 18.5% 높은 65.2의 점수를 기록했습니다. 또한, Lessie는 119개의 모든 쿼리에 대해 100%의 작업 완료율을 달성한 유일한 시스템입니다. 본 연구에서는 신뢰 구간, 검증 파이프라인의 인간 검증 결과(Cohen's kappa = 0.84), 실험 결과 분석, 쿼리, 프롬프트 및 정규화 절차에 대한 상세한 설명을 제공합니다. 코드, 쿼리 정의 및 집계 결과는 GitHub에서 확인할 수 있습니다.
AI-powered people search platforms are increasingly used in recruiting, sales prospecting, and professional networking, yet no widely accepted benchmark exists for evaluating their performance. We introduce PeopleSearchBench, an open-source benchmark that compares four people search platforms on 119 real-world queries across four use cases: corporate recruiting, B2B sales prospecting, expert search with deterministic answers, and influencer/KOL discovery. A key contribution is Criteria-Grounded Verification, a factual relevance pipeline that extracts explicit, verifiable criteria from each query and uses live web search to determine whether returned people satisfy them. This produces binary relevance judgments grounded in factual verification rather than subjective holistic LLM-as-judge scores. We evaluate systems on three dimensions: Relevance Precision (padded nDCG@10), Effective Coverage (task completion and qualified result yield), and Information Utility (profile completeness and usefulness), averaged equally into an overall score. Lessie, a specialized AI people search agent, performs best overall, scoring 65.2, 18.5% higher than the second-ranked system, and is the only system to achieve 100% task completion across all 119 queries. We also report confidence intervals, human validation of the verification pipeline (Cohen's kappa = 0.84), ablations, and full documentation of queries, prompts, and normalization procedures. Code, query definitions, and aggregated results are available on GitHub.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.