블랙박스 LLM을 신뢰할 수 있을까요? 편향 확산 및 다중 에이전트 강화 학습을 통한 LLM의 신뢰성 저하 경계 탐지
Can We Trust a Black-box LLM? LLM Untrustworthy Boundary Detection via Bias-Diffusion and Multi-Agent Reinforcement Learning
대규모 언어 모델(LLM)은 다양한 주제에 대한 질문에 답변하는 데 높은 능력을 보여줍니다. 그러나 이러한 모델은 때때로 편향적이거나, 이념적인, 또는 부정확한 답변을 생성하며, LLM의 답변이 신뢰할 수 있는 주제를 명확하게 이해하지 못하면 응용 분야가 제한됩니다. 본 연구에서는 블랙박스 방식으로 접근 가능한 LLM과 특정 쿼리 제약 조건 하에서, 주어진 LLM의 신뢰성 저하 경계를 주제별로 식별하도록 설계된 새로운 알고리즘인 GMRL-BD를 소개합니다. 위키피디아에서 파생된 일반적인 지식 그래프(KG)를 기반으로, 본 알고리즘은 여러 강화 학습 에이전트를 활용하여 LLM이 편향된 답변을 생성할 가능성이 높은 주제(KG의 일부 노드)를 효율적으로 식별합니다. 실험 결과, 본 알고리즘은 LLM에 제한된 수의 쿼리만 수행하여 신뢰성 저하 경계를 탐지하는 데 효율적임을 입증했습니다. 또한, Llama2, Vicuna, Falcon, Qwen2, Gemma2 및 Yi-1.5와 같은 인기 LLM을 포함하는 새로운 데이터 세트를 공개했으며, 각 LLM이 편향될 가능성이 있는 주제에 대한 레이블을 제공합니다.
Large Language Models (LLMs) have shown a high capability in answering questions on a diverse range of topics. However, these models sometimes produce biased, ideologized or incorrect responses, limiting their applications if there is no clear understanding of which topics their answers can be trusted. In this research, we introduce a novel algorithm, named as GMRL-BD, designed to identify the untrustworthy boundaries (in terms of topics) of a given LLM, with black-box access to the LLM and under specific query constraints. Based on a general Knowledge Graph (KG) derived from Wikipedia, our algorithm incorporates with multiple reinforcement learning agents to efficiently identify topics (some nodes in KG) where the LLM is likely to generate biased answers. Our experiments demonstrated the efficiency of our algorithm, which can detect the untrustworthy boundary with just limited queries to the LLM. Additionally, we have released a new dataset containing popular LLMs including Llama2, Vicuna, Falcon, Qwen2, Gemma2 and Yi-1.5, along with labels indicating the topics on which each LLM is likely to be biased.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.