신뢰할 수 있는 거대 언어 모델 에이전트를 위한 감소 가능한 불확실성 모델링을 향하여
Towards Reducible Uncertainty Modeling for Reliable Large Language Model Agents
거대 언어 모델(LLM)을 위한 불확실성 정량화(UQ)는 일상적인 LLM 애플리케이션의 안전 가드레일을 구축하는 핵심 요소입니다. 그러나 LLM 에이전트가 매우 복잡한 작업에 점점 더 많이 배치되고 있음에도 불구하고, 대부분의 UQ 연구는 여전히 단일 턴(single-turn) 질의응답에만 집중되어 있습니다. 우리는 UQ 연구가 상호작용하는 에이전트가 있는 현실적인 환경으로 전환되어야 하며, 에이전트 UQ를 위한 새롭고 원칙적인 프레임워크가 필요하다고 주장합니다. 본 논문은 기존의 광범위한 UQ 설정들을 포괄하는 에이전트 UQ에 대한 최초의 일반적인 공식화를 제시합니다. 이 공식화 하에서, 우리는 선행 연구들이 암묵적으로 LLM UQ를 불확실성 누적 과정으로 취급하고 있음을 보여주는데, 이는 개방형 세계(open world)의 상호작용형 에이전트에게는 성립하지 않는 관점입니다. 이와 대조적으로, 우리는 행동의 "상호작용성"을 강조함으로써 에이전트의 궤적에 따른 감소 가능한 불확실성을 명시적으로 모델링하는 새로운 관점, 즉 조건부 불확실성 감소 과정을 제안합니다. 이러한 관점을 바탕으로, 우리는 LLM 에이전트 설정에서 UQ를 설계하기 위한 실질적인 지침을 제공하는 개념적 프레임워크를 개략적으로 설명합니다. 마지막으로, 우리는 최첨단 LLM 개발 및 도메인 특화 애플리케이션에서의 에이전트 UQ의 실질적인 시사점과 남은 과제들을 제시하며 결론을 맺습니다.
Uncertainty quantification (UQ) for large language models (LLMs) is a key building block for safety guardrails of daily LLM applications. Yet, even as LLM agents are increasingly deployed in highly complex tasks, most UQ research still centers on single-turn question-answering. We argue that UQ research must shift to realistic settings with interactive agents, and that a new principled framework for agent UQ is needed. This paper presents the first general formulation of agent UQ that subsumes broad classes of existing UQ setups. Under this formulation, we show that prior works implicitly treat LLM UQ as an uncertainty accumulation process, a viewpoint that breaks down for interactive agents in an open world. In contrast, we propose a novel perspective, a conditional uncertainty reduction process, that explicitly models reducible uncertainty over an agent's trajectory by highlighting "interactivity" of actions. From this perspective, we outline a conceptual framework to provide actionable guidance for designing UQ in LLM agent setups. Finally, we conclude with practical implications of the agent UQ in frontier LLM development and domain-specific applications, as well as open remaining problems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.