에이전트 도구 선택에서의 환각 지표로서의 내부 표현
Internal Representations as Indicators of Hallucinations in Agent Tool Selection
대형 언어 모델(LLM)은 도구 호출 및 사용에 있어 놀라운 능력을 보여주었으나, 잘못된 도구를 선택하거나, 형식이 잘못된 매개변수를 제공하고, 전문화된 도구나 외부 시스템을 호출하는 대신 시뮬레이션을 수행하여 결과를 생성하는 '도구 우회(tool bypass)' 행동을 보이는 등의 환각 문제를 겪고 있다. 이는 일관성 없는 결과를 초래하고 보안 및 감사 제어를 우회하게 하여, 결과적으로 프로덕션 시스템에서 LLM 기반 에이전트의 신뢰성을 약화시킨다. 이러한 에이전트 도구 선택 과정에서의 환각은 조기 탐지와 오류 처리가 필요하다. 다중 순전파(multiple forward passes)나 외부 검증을 필요로 하는 기존의 환각 탐지 방법들과 달리, 우리는 생성에 사용되는 동일한 순전파 과정에서 LLM의 내부 표현을 활용하여 도구 호출 환각을 실시간으로 탐지하는 계산 효율적인 프레임워크를 제안한다. 우리는 여러 도메인에 걸친 추론 작업에서 이 접근 방식을 평가하였으며, 최소한의 연산 오버헤드로 실시간 추론 기능을 유지하면서도 강력한 탐지 성능(최대 86.4% 정확도)을 입증하였다. 특히 신뢰할 수 있는 에이전트 배포에 필수적인 매개변수 수준의 환각과 부적절한 도구 선택을 탐지하는 데 있어 탁월한 성능을 보였다.
Large Language Models (LLMs) have shown remarkable capabilities in tool calling and tool usage, but suffer from hallucinations where they choose incorrect tools, provide malformed parameters and exhibit 'tool bypass' behavior by performing simulations and generating outputs instead of invoking specialized tools or external systems. This undermines the reliability of LLM based agents in production systems as it leads to inconsistent results, and bypasses security and audit controls. Such hallucinations in agent tool selection require early detection and error handling. Unlike existing hallucination detection methods that require multiple forward passes or external validation, we present a computationally efficient framework that detects tool-calling hallucinations in real-time by leveraging LLMs' internal representations during the same forward pass used for generation. We evaluate this approach on reasoning tasks across multiple domains, demonstrating strong detection performance (up to 86.4\% accuracy) while maintaining real-time inference capabilities with minimal computational overhead, particularly excelling at detecting parameter-level hallucinations and inappropriate tool selections, critical for reliable agent deployment.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.