2602.01031v1 Feb 01, 2026 cs.AI

HalluHard: 고난도 멀티턴 환각 벤치마크

HalluHard: A Hard Multi-Turn Hallucination Benchmark

Sebastien Delsad

Citations: 4

h-index: 1

Nicolas Flammarion

Citations: 3,862

h-index: 19

Maksym Andriushchenko

Citations: 110

h-index: 5

Dongyang Fan

EPFL

Citations: 110

h-index: 5

대규모 언어 모델(LLM)은 여전히 그럴듯하게 들리지만 근거 없는 사실적 주장을 생성하며, 이 문제는 맥락이 길어지고 초기의 오류가 누적되는 멀티턴 대화에서 더욱 악화됩니다. 본 논문에서는 법률 판례, 연구 질문, 의료 지침, 코딩 등 네 가지 고위험 도메인에 걸친 950개의 시드 질문으로 구성된 고난도 멀티턴 환각 벤치마크인 HalluHard를 소개합니다. 우리는 사실적 진술에 대해 인라인 인용을 요구함으로써 그라운딩(grounding, 근거 기반성)을 구체화했습니다. 개방형 환경에서 신뢰할 수 있는 평가를 지원하기 위해, 웹 검색을 통해 증거를 반복적으로 수집하는 평가 파이프라인을 제안합니다. 이 파이프라인은 전문(PDF 포함) 소스를 수집, 필터링 및 파싱하여 인용된 자료가 생성된 내용을 실제로 뒷받침하는지 평가할 수 있습니다. 다양한 최첨단 독점 및 오픈 웨이트 모델을 평가한 결과, 웹 검색을 사용하더라도 환각 현상은 여전히 상당하며(가장 강력한 구성인 Opus-4.5와 웹 검색 조합의 경우 약 30%), 콘텐츠 그라운딩 오류 또한 높은 비율로 지속되었습니다. 마지막으로, 우리는 환각 양상이 모델의 용량, 턴 위치, 효과적인 추론 능력, 그리고 요구되는 지식의 유형에 따라 형성된다는 것을 보여줍니다.

Original Abstract

Large language models (LLMs) still produce plausible-sounding but ungrounded factual claims, a problem that worsens in multi-turn dialogue as context grows and early errors cascade. We introduce $\textbf{HalluHard}$, a challenging multi-turn hallucination benchmark with 950 seed questions spanning four high-stakes domains: legal cases, research questions, medical guidelines, and coding. We operationalize groundedness by requiring inline citations for factual assertions. To support reliable evaluation in open-ended settings, we propose a judging pipeline that iteratively retrieves evidence via web search. It can fetch, filter, and parse full-text sources (including PDFs) to assess whether cited material actually supports the generated content. Across a diverse set of frontier proprietary and open-weight models, hallucinations remain substantial even with web search ($\approx 30\%$ for the strongest configuration, Opus-4.5 with web search), with content-grounding errors persisting at high rates. Finally, we show that hallucination behavior is shaped by model capacity, turn position, effective reasoning, and the type of knowledge required.

4 Citations

0 Influential

9.5 Altmetric

51.5 Score

Original PDF

AI Analysis

Korean Summary

이 논문은 대규모 언어 모델(LLM)이 멀티 턴(Multi-turn) 대화에서 겪는 환각(Hallucination) 문제를 평가하기 위해 'HALLUHARD'라는 고난도 벤치마크를 제안합니다. 법률, 연구, 의료, 코딩 등 4가지 전문 분야의 950개 질문으로 구성되어 있으며, 모델이 사실적 주장에 대해 인라인 인용을 제공하도록 요구합니다. 저자들은 단순한 검색 결과 요약(snippet)이 아닌, PDF를 포함한 전체 텍스트 문서를 검색하고 분석하여 인용의 정확성을 검증하는 새로운 자동화 평가 파이프라인을 도입했습니다. 실험 결과, GPT-5.2나 Claude Opus-4.5와 같은 최신 프런티어 모델들도 웹 검색 기능을 사용했음에도 약 30%의 환각률을 보였으며, 대화가 길어질수록 초기 오류가 누적되어 환각이 심화된다는 사실을 밝혀냈습니다.

Key Innovations

단발성 질문이 아닌 문맥이 누적되는 '멀티 턴' 환경에서의 환각 평가 벤치마크 구축
검색 스니펫뿐만 아니라 PDF 등 전체 텍스트(Full-text)를 검색하고 파싱하여 검증하는 고도화된 LLM 심판(Judge) 파이프라인
참조의 존재 여부(Reference Grounding)와 내용의 일치 여부(Content Grounding)를 구분하는 정밀한 평가 지표
희소한 지식(Niche Knowledge)과 완전한 허구(Fabricated)를 구분하여 모델의 대응 양상을 분석하는 제어 실험 설계

Learning & Inference Impact

이 연구는 단순히 웹 검색(RAG)을 통합하거나 모델의 추론(Reasoning) 능력을 높이는 것만으로는 환각 문제를 완전히 해결할 수 없음을 시사합니다. 특히 추론 과정에서 올바른 문서를 찾았더라도 내용을 잘못 해석하거나 왜곡하는 '내용 근거 오류'가 여전히 빈번함을 보여주어, 검색 증강 생성 시스템의 신뢰성 검증 단계를 강화해야 함을 강조합니다. 또한, 대화 후반부로 갈수록 모델이 자신의 이전 오류에 영향을 받는 '자기 조건화(Self-conditioning)' 현상을 지적함으로써, 긴 문맥 처리(Long-context) 및 오류 전파 방지 기술의 필요성을 제기합니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!