UniToolCall: LLM 에이전트를 위한 도구 사용 표현, 데이터 및 평가의 통합
UniToolCall: Unifying Tool-Use Representation, Data, and Evaluation for LLM Agents
도구 사용 능력은 LLM 에이전트의 핵심 구성 요소로서, 에이전트가 구조화된 함수 호출을 통해 외부 시스템과 상호 작용하도록 합니다. 그러나 기존 연구에서는 일관성 없는 상호 작용 표현 방식을 사용하고, 도구 사용 경로의 구조적 분포를 충분히 고려하지 않으며, 호환되지 않는 평가 벤치마크에 의존하는 경향이 있습니다. 본 연구에서는 도구 학습을 위한 통합 프레임워크인 UniToolCall을 제시합니다. UniToolCall은 도구 세트 구축 및 데이터 세트 생성부터 평가까지 전체 파이프라인을 표준화합니다. 본 프레임워크는 22,000개 이상의 도구로 구성된 대규모 도구 풀을 관리하고, 10개의 표준화된 공개 데이터 세트와 구조적으로 제어된 합성 데이터를 결합하여 390,000개 이상의 인스턴스로 구성된 하이브리드 학습 코퍼스를 구축합니다. 또한, 단일 홉(single-hop) 대 다중 홉(multi-hop) 및 단일 턴(single-turn) 대 다중 턴(multi-turn)을 포함한 다양한 상호 작용 패턴을 명시적으로 모델링하며, 순차적(serial) 및 병렬(parallel) 실행 구조를 모두 포착합니다. 일관성 있는 다중 턴 추론을 지원하기 위해, 턴 간 의존성을 강화하는 Anchor Linkage 메커니즘을 추가로 도입했습니다. 또한, 7개의 공개 벤치마크를 함수 호출, 턴 및 전체 대화 수준에서 세분화된 평가를 수행할 수 있는 통합된 Query--Action--Observation--Answer (QAOA) 표현 방식으로 변환했습니다. 실험 결과, Qwen3-8B 모델을 본 데이터 세트로 미세 조정하면 도구 사용 성능이 크게 향상되었습니다. 특히, 방해 요소가 많은 Hybrid-20 설정에서 93.0%의 높은 단일 턴 Strict Precision을 달성하여 GPT, Gemini, Claude와 같은 상용 모델을 능가하는 성능을 보였습니다.
Tool-use capability is a fundamental component of LLM agents, enabling them to interact with external systems through structured function calls. However, existing research exhibits inconsistent interaction representations, largely overlooks the structural distribution of tool-use trajectories, and relies on incompatible evaluation benchmarks. We present UniToolCall, a unified framework for tool learning that standardizes the entire pipeline from toolset construction and dataset generation to evaluation. The framework curates a large tool pool of 22k+ tools and constructs a hybrid training corpus of 390k+ instances by combining 10 standardized public datasets with structurally controlled synthetic trajectories. It explicitly models diverse interaction patterns, including single-hop vs. multi-hop and single-turn vs. multi-turn, while capturing both serial and parallel execution structures. To support coherent multi-turn reasoning, we further introduce an Anchor Linkage mechanism that enforces cross-turn dependencies. Furthermore, we convert 7 public benchmarks into a unified Query--Action--Observation--Answer (QAOA) representation with fine-grained evaluation at the function-call, turn, and conversation levels. Experiments show that fine-tuning Qwen3-8B on our dataset substantially improves tool-use performance. Under the distractor-heavy Hybrid-20 setting, achieves 93.0% single-turn Strict Precision, outperforming commercial models including GPT, Gemini, and Claude.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.