2602.16942v1 Feb 18, 2026 cs.AI

SourceBench: 인공지능 답변이 참조하는 웹 자료의 품질을 평가할 수 있을까?

SourceBench: Can AI Answers Reference Quality Web Sources?

Hexi Jin
Hexi Jin
Citations: 18
h-index: 2
Steven Liu
Steven Liu
Citations: 4
h-index: 1
Yuheng Li
Yuheng Li
Citations: 34
h-index: 3
Yiying Zhang
Yiying Zhang
Citations: 152
h-index: 5
Simran Malik
Simran Malik
Citations: 3
h-index: 1

최근 대규모 언어 모델(LLM)은 쿼리에 대한 답변을 제공하면서 웹 자료를 인용하는 경우가 늘어나고 있지만, 기존의 평가 방법은 답변의 정확성을 중시하는 경향이 있습니다. 본 연구에서는 정보성, 사실성, 논증성, 사회성, 쇼핑 등 다양한 의도를 포함하는 100개의 실제 쿼리에 대해 인용된 웹 자료의 품질을 측정하는 벤치마크인 SourceBench를 소개합니다. SourceBench는 콘텐츠 품질(관련성, 사실 정확성, 객관성)과 페이지 수준의 지표(예: 최신성, 권위/책임성, 명확성)를 포괄하는 8가지 지표 프레임워크를 사용하며, 전문가의 판단과 유사한 결과를 제공하는 LLM 기반 평가 도구를 활용한 인간 라벨링 데이터셋을 포함합니다. SourceBench를 사용하여 8개의 LLM, Google 검색, 그리고 3개의 AI 검색 도구를 3996개의 인용된 웹 자료에 대해 평가하고, 평가 결과를 분석하기 위한 추가 실험을 진행했습니다. 전반적으로, 본 연구는 생성형 AI 및 웹 검색 분야의 미래 연구 방향을 제시할 수 있는 4가지 중요한 새로운 통찰력을 제공합니다.

Original Abstract

Large language models (LLMs) increasingly answer queries by citing web sources, but existing evaluations emphasize answer correctness rather than evidence quality. We introduce SourceBench, a benchmark for measuring the quality of cited web sources across 100 real-world queries spanning informational, factual, argumentative, social, and shopping intents. SourceBench uses an eight-metric framework covering content quality (content relevance, factual accuracy, objectivity) and page-level signals (e.g., freshness, authority/accountability, clarity), and includes a human-labeled dataset with a calibrated LLM-based evaluator that matches expert judgments closely. We evaluate eight LLMs, Google Search, and three AI search tools over 3996 cited sources using SourceBench and conduct further experiments to understand the evaluation results. Overall, our work reveals four key new insights that can guide future research in the direction of GenAI and web search.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!