LLM을 활용한 칭찬형 행동: LLM 기반 반대 관점 추론을 통한 클릭베이트 대응
Acting Flatterers via LLMs Sycophancy: Combating Clickbait with LLMs Opposing-Stance Reasoning
온라인 콘텐츠의 급속한 확산은 주의를 끌기 위해 사용되는 기만적이거나 과장된 헤드라인인 클릭베이트에 대한 우려를 심화시켰습니다. 대규모 언어 모델(LLM)은 이 문제를 해결할 수 있는 유망한 방법을 제공하지만, LLM의 효과는 종종 '아첨(Sycophancy)'이라는 경향으로 인해 저해됩니다. 아첨은 사용자의 신념에 부합하는 추론을 생성하는 경향이 있는데, 이는 지시사항 준수 원칙에서 벗어납니다. 본 연구에서는 아첨을 제거해야 할 결함으로 간주하는 대신, 이 행동을 활용하여 초기 단계에서 서로 다른 관점의 대조적인 추론을 생성하는 새로운 접근 방식을 제안합니다. 구체적으로, 우리는 '자기 갱신 기반 반대 관점 추론 생성(SORG)' 프레임워크를 설계하여 LLM이 주어진 뉴스 제목에 대해 진실에 기반한 추론이 아닌, 동의 및 반대 추론 쌍을 생성하도록 유도합니다. 생성된 추론을 활용하기 위해, 우리는 제목과 관련된 추론을 통합하는 '지역 기반 반대 추론 클릭베이트 탐지(ORCD)' 모델을 개발했습니다. 이 모델은 LLM에서 생성된 신뢰도 점수를 기반으로 한 소프트 라벨을 사용하여 대조 학습을 통해 탐지 성능을 향상시킵니다. 세 개의 벤치마크 데이터 세트에 대한 실험 결과, 제안하는 방법은 LLM 프롬프트, 미세 조정된 소규모 언어 모델, 그리고 최첨단 클릭베이트 탐지 모델보다 일관되게 우수한 성능을 보였습니다.
The widespread proliferation of online content has intensified concerns about clickbait, deceptive or exaggerated headlines designed to attract attention. While Large Language Models (LLMs) offer a promising avenue for addressing this issue, their effectiveness is often hindered by Sycophancy, a tendency to produce reasoning that matches users' beliefs over truthful ones, which deviates from instruction-following principles. Rather than treating sycophancy as a flaw to be eliminated, this work proposes a novel approach that initially harnesses this behavior to generate contrastive reasoning from opposing perspectives. Specifically, we design a Self-renewal Opposing-stance Reasoning Generation (SORG) framework that prompts LLMs to produce high-quality agree and disagree reasoning pairs for a given news title without requiring ground-truth labels. To utilize the generated reasoning, we develop a local Opposing Reasoning-based Clickbait Detection (ORCD) model that integrates three BERT encoders to represent the title and its associated reasoning. The model leverages contrastive learning, guided by soft labels derived from LLM-generated credibility scores, to enhance detection robustness. Experimental evaluations on three benchmark datasets demonstrate that our method consistently outperforms LLM prompting, fine-tuned smaller language models, and state-of-the-art clickbait detection baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.