OpaqueToolsBench: 상호 작용을 통해 도구 동작의 미묘한 차이를 학습
OpaqueToolsBench: Learning Nuances of Tool Behavior Through Interaction
도구 활용은 대규모 언어 모델(LLM) 에이전트가 실제 세계의 작업을 수행하는 데 필수적입니다. 대부분의 기존 벤치마크는 단순하고 완벽하게 문서화된 도구를 가정하지만, 실제 도구(예: 일반적인 "검색" API)는 종종 불투명하며, 명확한 최적의 사용법이나 오류 발생 원인이 부족합니다. LLM 에이전트가 상호 작용하고 문서화를 개선함으로써 불투명한 도구를 사용하는 환경에서 성능을 향상시킬 수 있을까요? 이를 연구하기 위해, 우리는 세 가지 뚜렷한 작업 지향적 환경으로 구성된 벤치마크인 OpaqueToolsBench를 만들었습니다. 여기에는 일반적인 함수 호출, 대화형 체스 게임, 그리고 장기적인 에이전트 검색이 포함됩니다. 각 환경은 모델이 작업을 완료하기 위해 효과적으로 사용하도록 학습해야 하는 불완전하게 정의된 도구를 제공합니다. OpaqueToolsBench의 결과는 기존의 자동 도구 문서화 방법이 불투명한 도구의 경우 비용이 많이 들고 신뢰성이 낮다는 것을 시사합니다. 이를 해결하기 위해, 우리는 도구 사용 기록에서 얻은 실행 피드백을 기반으로 도구 문서를 반복적으로 개선하는 간단한 프레임워크인 ToolObserver를 제안합니다. 우리의 접근 방식은 데이터 세트 전체에서 기존 방법보다 OpaqueToolsBench에서 더 나은 성능을 보이며, 특히 어려운 설정에서도 뛰어납니다. 또한, 테스트 시점의 도구 탐색 설정에서, 우리의 방법은 가장 우수한 기준 모델보다 총 토큰 사용량이 3.5배에서 7.5배 적게 소비됩니다.
Tool-calling is essential for Large Language Model (LLM) agents to complete real-world tasks. While most existing benchmarks assume simple, perfectly documented tools, real-world tools (e.g., general "search" APIs) are often opaque, lacking clear best practices or failure modes. Can LLM agents improve their performance in environments with opaque tools by interacting and subsequently improving documentation? To study this, we create OpaqueToolsBench, a benchmark consisting of three distinct task-oriented environments: general function calling, interactive chess playing, and long-trajectory agentic search. Each environment provides underspecified tools that models must learn to use effectively to complete the task. Results on OpaqueToolsBench suggest existing methods for automatically documenting tools are expensive and unreliable when tools are opaque. To address this, we propose a simple framework, ToolObserver, that iteratively refines tool documentation by observing execution feedback from tool-calling trajectories. Our approach outperforms existing methods on OpaqueToolsBench across datasets, even in relatively hard settings. Furthermore, for test-time tool exploration settings, our method is also efficient, consuming 3.5-7.5x fewer total tokens than the best baseline.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.