TRACE: 근거 기반의 책임 있는 관광 추천 시스템
TRACE: Tourism Recommendation with Accountable Citation Evidence
관광은 대화형 추천 시스템(CRS)에게 있어 매우 중요한 분야입니다. 설득력 있는 추천이라 할지라도, 실제로 여행자가 이를 따랐을 때 상당한 비용과 시간을 낭비하게 할 수 있기 때문입니다. 기존의 CRS 벤치마크는 주로 엔티티 언급에 대한 단일 Recall@k 점수를 사용하여 시스템을 평가하며, 관광 분야에 특화된 데이터셋은 공간 정보나 지식 그래프를 활용하지만, 다중 턴 추천과 함께 원문 리뷰 증거를 제공하고 거부 상황에 대한 복구 기능을 갖춘 데이터셋은 아직 없습니다. 따라서, 신뢰성, 검증 가능성, 그리고 적응성을 동시에 갖춘 관광 추천 시스템에 대한 평가 격차가 존재합니다. TRACE는 이러한 격차를 해소하기 위해 개발되었습니다. TRACE는 각 항목이 리뷰 원문 인용과 명시적인 거부 턴을 포함하는 다중 턴 관광 추천 대화로 구성되어 있습니다. 2,400개의 Yelp 장소와 34,208개의 리뷰를 포함하며, 미국 8개 도시를 대상으로 10,000개의 대화 데이터가 구축되었습니다. 또한, 14개의 검색, 계획, 그리고 LLM 기반의 기준 모델과 함께 정확도, 근거성, 그리고 복구 능력을 평가하는 25개의 지표를 제공합니다. 실험 결과, TRACE는 LLM 기반 모델이 제한된 범위 내에서의 정확도와 거부 복구에서 우수한 성능을 보이지만, 검색 기반 모델보다 인용 밀도가 낮다는 점, 검색 기반 모델은 표면적인 원문 일치성을 확보하지만 정확도가 낮다는 점, 그리고 다중 리뷰 합성 모델은 복구 능력이 부족하다는 점을 보여줍니다. 근거성 점수는 인간의 인용 정확도와 높은 상관 관계(Spearman rho=+0.80, p<10^-20)를 보이며, 쌍체 t-검정을 통해 기준 모델 간의 순위가 일관되게 재현됩니다(p<0.01). TRACE는 책임 있는 관광 추천을 단일 지표로 평가하는 것이 아니라, 올바른 장소 추천, 검증 가능한 증거 제공, 그리고 적응적인 복구 기능을 동시에 고려하는 통합적인 목표로 재정의합니다.
Tourism is a high-stakes setting for conversational recommender systems (CRS): a plausible-sounding suggestion can waste real money and trip time once a traveler acts on it. Existing CRS benchmarks primarily evaluate systems with a single Recall@k score over entity mentions, and tourism-specific resources add spatial or knowledge-graph context, yet none of them couple multi-turn recommendation with verbatim review-span evidence and rejection recovery. This leaves an evaluation gap for tourism recommendation that is simultaneously trustworthy, verifiable, and adaptive: recommend the right point of interest (POI) for multi-aspect preferences (such as cuisine, price, atmosphere, walking distance), justify each suggestion with verifiable evidence from prior visitors so the traveler can act without trial and error, and recover when the first recommendation is rejected mid-dialogue. We introduce TRACE, where each item is a multi-turn tourism recommendation dialogue with review-span citations and explicit rejection turns: 10,000 dialogues over 2,400 Yelp POIs and 34,208 reviews across eight U.S. cities, paired with 14 retrieval, planning, and LLM baselines, along with 25 metrics organized under Accuracy, Grounding, and Recovery. Across these baselines, TRACE reveals the Three-Competency Gap: LLM Zero-Shot leads in closed-set Recall@1 and rejection recovery but cites less densely than retrievers; non-LLM retrievers achieve surface-verbatim grounding but with low accuracy; Multi-Review Synthesis fails at recovery. The Grounding Score agrees with human citation precision (Spearman rho=+0.80, p<10^-20), and paired t-tests reproduce the per-baseline ranking (p<0.01 on the dominant contrasts). TRACE reframes accountable tourism recommendation as a joint target (right POI, verifiable evidence, adaptive repair) rather than a single-axis leaderboard.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.