표면적인 판단을 넘어서: LLM이 생성한 허위 정보에 대한 인간 중심의 위험 평가
Beyond Surface Judgments: Human-Grounded Risk Evaluation of LLM-Generated Disinformation
대규모 언어 모델(LLM)은 설득력 있는 이야기를 대량으로 생성할 수 있으며, 이는 허위 정보 캠페인에 사용될 가능성에 대한 우려를 불러일으킵니다. 이러한 위험을 평가하려면 궁극적으로 독자들이 그러한 콘텐츠를 어떻게 받아들이는지 이해해야 합니다. 그러나 실제로 LLM 평가 모델은 비용 효율적인 대안으로 인간 평가를 대체하는 데 점점 더 많이 사용되고 있지만, 이러한 모델이 독자의 반응을 정확하게 반영하는지 여부는 여전히 불분명합니다. 본 연구에서는 이러한 평가를 프록시 유효성 문제로 재구성하고, LLM 평가 모델을 인간 독자의 반응과 비교하여 검증합니다. 290개의 연관된 기사, 2,043개의 쌍을 이루는 인간 평가 데이터, 그리고 8개의 최첨단 평가 모델의 출력을 사용하여 전반적인 점수, 항목 수준의 순위, 그리고 특징 의존성 측면에서 평가 모델과 인간 독자의 일치성을 분석했습니다. 연구 결과, 평가 모델과 인간 독자 간의 지속적인 격차가 존재하는 것으로 나타났습니다. 일반적으로 인간에 비해 평가 모델은 더 가혹하며, 항목 수준의 인간 순위를 약하게만 반영하고, 서로 다른 텍스트적 특징에 의존합니다. 특히, 논리적 엄격성에 더 큰 가중치를 두는 반면, 감정적 강렬함에 대해서는 더 강한 불이익을 줍니다. 동시에, 평가 모델은 서로 간에 더 높은 일치도를 보이지만, 인간 독자와는 일치도가 낮습니다. 이러한 결과는 LLM 평가 모델이 내부적으로는 일치도가 높지만, 인간 독자와는 일치도가 낮은 일관된 평가 그룹을 형성하며, 내부적 합의가 독자의 반응을 대표하는 유효성의 증거가 될 수 없음을 시사합니다.
Large language models (LLMs) can generate persuasive narratives at scale, raising concerns about their potential use in disinformation campaigns. Assessing this risk ultimately requires understanding how readers receive such content. In practice, however, LLM judges are increasingly used as a low-cost substitute for direct human evaluation, even though whether they faithfully track reader responses remains unclear. We recast evaluation in this setting as a proxy-validity problem and audit LLM judges against human reader responses. Using 290 aligned articles, 2,043 paired human ratings, and outputs from eight frontier judges, we examine judge--human alignment in terms of overall scoring, item-level ordering, and signal dependence. We find persistent judge--human gaps throughout. Relative to humans, judges are typically harsher, recover item-level human rankings only weakly, and rely on different textual signals, placing more weight on logical rigour while penalizing emotional intensity more strongly. At the same time, judges agree far more with one another than with human readers. These results suggest that LLM judges form a coherent evaluative group that is much more aligned internally than it is with human readers, indicating that internal agreement is not evidence of validity as a proxy for reader response.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.