ToolGate: 계약 기반의 검증된 도구 실행 프레임워크 for LLM
ToolGate: Contract-Grounded and Verified Tool Execution for LLMs
외부 도구를 활용한 대규모 언어 모델(LLM)은 복잡한 추론 작업에서 놀라운 성능을 보여주었습니다. 그러나 기존 프레임워크는 도구를 언제 호출해야 하는지, 그리고 결과가 신뢰할 수 있는지 여부를 결정하는 데 자연어 추론에 크게 의존하며, 논리적 안전성과 검증 가능성에 대한 공식적인 보장을 제공하지 못합니다. 본 논문에서는 LLM 도구 호출에 대한 논리적 안전성을 보장하고 검증 가능한 상태 변화를 제공하는 순방향 실행 프레임워크인 **ToolGate**를 제시합니다. ToolGate는 추론 과정 전반에 걸쳐 신뢰할 수 있는 세계 정보를 나타내는 타입이 지정된 키-값 매핑을 사용한 명시적인 심볼릭 상태 공간을 유지합니다. 각 도구는 전제 조건과 후 조건으로 구성된 Hoare 스타일의 계약으로 형식화됩니다. 전제 조건은 현재 상태가 필요한 조건을 만족하는지 확인하여 도구 호출을 제어하며, 후 조건은 런타임 검증을 통해 도구의 결과를 사용하여 상태를 업데이트할 수 있는지 여부를 결정합니다. 우리의 접근 방식은 심볼릭 상태가 검증된 도구 실행을 통해서만 변화하도록 보장하여, 잘못된 또는 환각된 결과가 세계 표현을 손상시키는 것을 방지합니다. 실험 결과는 ToolGate가 LLM 시스템의 신뢰성과 검증 가능성을 크게 향상시키면서 복잡한 다단계 추론 작업에서 경쟁력 있는 성능을 유지함을 보여줍니다. 본 연구는 언어 모델과 외부 도구를 통합하는 더욱 신뢰할 수 있고 디버깅 가능한 AI 시스템을 구축하기 위한 기반을 마련합니다.
Large Language Models (LLMs) augmented with external tools have demonstrated remarkable capabilities in complex reasoning tasks. However, existing frameworks rely heavily on natural language reasoning to determine when tools can be invoked and whether their results should be committed, lacking formal guarantees for logical safety and verifiability. We present \textbf{ToolGate}, a forward execution framework that provides logical safety guarantees and verifiable state evolution for LLM tool calling. ToolGate maintains an explicit symbolic state space as a typed key-value mapping representing trusted world information throughout the reasoning process. Each tool is formalized as a Hoare-style contract consisting of a precondition and a postcondition, where the precondition gates tool invocation by checking whether the current state satisfies the required conditions, and the postcondition determines whether the tool's result can be committed to update the state through runtime verification. Our approach guarantees that the symbolic state evolves only through verified tool executions, preventing invalid or hallucinated results from corrupting the world representation. Experimental validation demonstrates that ToolGate significantly improves the reliability and verifiability of tool-augmented LLM systems while maintaining competitive performance on complex multi-step reasoning tasks. This work establishes a foundation for building more trustworthy and debuggable AI systems that integrate language models with external tools.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.