SourceBench: 인공지능 답변이 참조하는 웹 자료의 품질을 평가할 수 있을까?
SourceBench: Can AI Answers Reference Quality Web Sources?
최근 대규모 언어 모델(LLM)은 쿼리에 대한 답변을 제공하면서 웹 자료를 인용하는 경우가 늘어나고 있지만, 기존의 평가 방법은 답변의 정확성을 중시하는 경향이 있습니다. 본 연구에서는 정보성, 사실성, 논증성, 사회성, 쇼핑 등 다양한 의도를 포함하는 100개의 실제 쿼리에 대해 인용된 웹 자료의 품질을 측정하는 벤치마크인 SourceBench를 소개합니다. SourceBench는 콘텐츠 품질(관련성, 사실 정확성, 객관성)과 페이지 수준의 지표(예: 최신성, 권위/책임성, 명확성)를 포괄하는 8가지 지표 프레임워크를 사용하며, 전문가의 판단과 유사한 결과를 제공하는 LLM 기반 평가 도구를 활용한 인간 라벨링 데이터셋을 포함합니다. SourceBench를 사용하여 8개의 LLM, Google 검색, 그리고 3개의 AI 검색 도구를 3996개의 인용된 웹 자료에 대해 평가하고, 평가 결과를 분석하기 위한 추가 실험을 진행했습니다. 전반적으로, 본 연구는 생성형 AI 및 웹 검색 분야의 미래 연구 방향을 제시할 수 있는 4가지 중요한 새로운 통찰력을 제공합니다.
Large language models (LLMs) increasingly answer queries by citing web sources, but existing evaluations emphasize answer correctness rather than evidence quality. We introduce SourceBench, a benchmark for measuring the quality of cited web sources across 100 real-world queries spanning informational, factual, argumentative, social, and shopping intents. SourceBench uses an eight-metric framework covering content quality (content relevance, factual accuracy, objectivity) and page-level signals (e.g., freshness, authority/accountability, clarity), and includes a human-labeled dataset with a calibrated LLM-based evaluator that matches expert judgments closely. We evaluate eight LLMs, Google Search, and three AI search tools over 3996 cited sources using SourceBench and conduct further experiments to understand the evaluation results. Overall, our work reveals four key new insights that can guide future research in the direction of GenAI and web search.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.