2605.15041v1 May 14, 2026 cs.AI

LLM 도구 사용을 위한 적응적 추론 및 실행의 사례 기반 교정

Case-Based Calibration of Adaptive Reasoning and Execution for LLM Tool Use

Renning Pang
Renning Pang
Citations: 7
h-index: 2
Tian Lan
Tian Lan
Citations: 65
h-index: 3
Leyuan Liu
Leyuan Liu
Citations: 1
h-index: 1
Piao Tong
Piao Tong
Citations: 24
h-index: 3
Xiaosong Zhang
Xiaosong Zhang
Citations: 0
h-index: 0
Sheng Cao
Sheng Cao
Citations: 332
h-index: 7

도구 사용은 대규모 언어 모델(LLM)을 단순한 파라미터 지식 체계를 넘어 확장하지만, 신뢰성 있는 실행을 위해서는 적절한 추론 깊이와 엄격한 구조적 타당성을 균형 있게 유지해야 합니다. 우리는 이 문제를 사례 기반 관점에서 접근하여, 과거 실행 경로를 구조화된 사례로 취급하는 프레임워크인 CAST를 제시합니다. CAST는 원시 예제 출력 결과를 재사용하는 대신, 사례에서 파생된 신호를 추출하여 최적의 추론 전략을 추정하기 위한 복잡성 프로필과, 발생 가능한 구조적 오류를 파악하기 위한 실패 프로필을 식별합니다. 이 프레임워크는 이러한 지식을 세분화된 보상 설계 및 적응적 추론으로 변환하여 모델이 강화 학습 과정에서 사례 기반 전략을 자율적으로 학습하도록 합니다. BFCLv2 및 ToolBench에 대한 실험 결과, CAST는 스키마 준수 실행 및 작업 수준의 도구 사용 성공률을 향상시키는 동시에 불필요한 고민을 줄이는 것으로 나타났습니다. 이 방법은 전체 실행 정확도를 최대 5.85%p 향상시키고 평균 추론 길이를 26% 단축하여, 심각한 구조적 오류를 크게 완화합니다. 궁극적으로, 이는 과거 실행 사례가 교정된 도구 사용을 위한 재사용 가능한 적응 지식을 제공할 수 있음을 보여줍니다.

Original Abstract

Tool use extends large language models beyond parametric knowledge, but reliable execution requires balancing appropriate reasoning depth with strict structural validity. We approach this problem from a case-based perspective to present CAST, a case-driven framework that treats historical execution trajectories as structured cases. Instead of reusing raw exemplar outputs, CAST extracts case-derived signals to identify complexity profiles for estimating optimal reasoning strategies, alongside failure profiles to map likely structural breakdowns. The framework translates this knowledge into a fine-grained reward design and adaptive reasoning, enabling the model to autonomously internalize case-based strategies during reinforcement learning. Experiments on BFCLv2 and ToolBench demonstrate that CAST improves both schema-faithful execution and task-level tool-use success while reducing unnecessary deliberation. The approach achieves up to 5.85 percentage points gain in overall execution accuracy and reduces average reasoning length by 26%, significantly mitigating high-impact structural errors. Ultimately, this demonstrates how historical execution cases can provide reusable adaptation knowledge for calibrated tool use.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!