CCTU: 복잡한 제약 조건 하에서의 도구 사용 벤치마크
CCTU: A Benchmark for Tool Use under Complex Constraints
명시적인 제약 조건 하에서 도구를 사용하여 문제를 해결하는 것은 대규모 언어 모델(LLM)에게 매우 어렵지만 필수적인 과제이며, 함수 호출, 지시 사항 준수, 자기 개선 등의 능력을 요구합니다. 그러나 전용 평가 도구의 부재로 인해 발전이 지체되어 왔습니다. 이를 해결하기 위해, 우리는 복잡한 제약 조건 하에서 LLM의 도구 사용을 평가하기 위한 벤치마크인 CCTU를 소개합니다. CCTU는 네 가지 차원(즉, 자원, 행동, 도구 세트, 응답)에 걸쳐 12가지 제약 조건 범주로 구성됩니다. 이 벤치마크는 다양한 도구 사용 시나리오에 걸쳐 신중하게 선별된 200개의 어려운 테스트 케이스로 구성되어 있으며, 각 테스트 케이스는 평균적으로 7가지 제약 조건 유형을 포함하고 평균 프롬프트 길이가 4,700 토큰을 초과합니다. 신뢰할 수 있는 평가를 위해, 모델과 환경 간의 다중 턴 상호 작용 중에 단계별 검증을 수행하고 준수 여부를 강제하는 실행 가능한 제약 조건 검증 모듈을 개발했습니다. 우리는 사고 모드와 비사고 모드 모두에서 최첨단 LLM 9개를 평가했습니다. 결과에 따르면, 모든 제약 조건을 엄격하게 준수해야 할 때, 어떤 모델도 20% 이상의 작업 완료율을 달성하지 못했습니다. 추가 분석 결과, 모델은 50% 이상의 경우에 제약 조건을 위반하며, 특히 자원 및 응답 측면에서 위반이 두드러집니다. 또한, LLM은 제약 조건 위반에 대한 자세한 피드백을 받았음에도 불구하고 자기 개선 능력은 제한적인 것으로 나타났으며, 이는 견고한 도구 사용 에이전트 개발의 중요한 병목 현상임을 시사합니다. 향후 연구를 지원하기 위해, 데이터와 코드를 공개합니다.
Solving problems through tool use under explicit constraints constitutes a highly challenging yet unavoidable scenario for large language models (LLMs), requiring capabilities such as function calling, instruction following, and self-refinement. However, progress has been hindered by the absence of dedicated evaluations. To address this, we introduce CCTU, a benchmark for evaluating LLM tool use under complex constraints. CCTU is grounded in a taxonomy of 12 constraint categories spanning four dimensions (i.e., resource, behavior, toolset, and response). The benchmark comprises 200 carefully curated and challenging test cases across diverse tool-use scenarios, each involving an average of seven constraint types and an average prompt length exceeding 4,700 tokens. To enable reliable evaluation, we develop an executable constraint validation module that performs step-level validation and enforces compliance during multi-turn interactions between models and their environments. We evaluate nine state-of-the-art LLMs in both thinking and non-thinking modes. Results indicate that when strict adherence to all constraints is required, no model achieves a task completion rate above 20%. Further analysis reveals that models violate constraints in over 50% of cases, particularly in the resource and response dimensions. Moreover, LLMs demonstrate limited capacity for self-refinement even after receiving detailed feedback on constraint violations, highlighting a critical bottleneck in the development of robust tool-use agents. To facilitate future research, we release the data and code.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.