모델 변경 없이 동시성 구현: LLM을 위한 미래 기반 비동기 함수 호출
Concurrency without Model Changes: Future-based Asynchronous Function Calling for LLMs
함수 호출(또는 도구 사용)은 최신 LLM 에이전트의 핵심 기능이지만, 일반적으로 동기 실행 방식으로 제한됩니다. 이러한 방식에서는 LLM 디코딩이 각 함수 호출이 완료될 때까지 차단되어 전체 지연 시간이 증가합니다. 본 연구에서는 AsyncFC라는 순수한 실행 계층 프레임워크를 소개합니다. AsyncFC는 LLM 디코딩과 함수 실행을 분리하여 모델 디코딩과 함수 실행 간의 중첩 실행 및 의존성이 허용되는 경우의 함수 간 병렬성을 가능하게 합니다. AsyncFC는 기존 모델과 수정되지 않은 함수 구현 위에 레이어 형태로 적용되며, 별도의 파인튜닝이나 표준 동기 함수 호출 프로토콜 변경이 필요하지 않습니다. 표준 함수 호출 벤치마크 및 개선된 소프트웨어 공학 벤치마크에서 AsyncFC는 전체 작업 완료 시간을 크게 단축하면서도 작업 정확도를 유지합니다. 또한, 이러한 결과는 LLM이 해결되지 않은 실행 결과를 나타내는 기호 '미래(future)'에 대해 추론할 수 있는 고유한 능력을 가지고 있으며, 이를 통해 모델과 도구 간의 비동기 상호 작용이 가능함을 보여줍니다.
Function calling, also known as tool use, is a core capability of modern LLM agents but is typically constrained by synchronous execution semantics. Under these semantics, LLM decoding is blocked until each function call completes, resulting in increasing end-to-end latency. In this work, we introduce AsyncFC, a pure execution-layer framework that decouples LLM decoding from function execution, enabling overlap between model decoding and function execution as well as inter-function parallelism when dependencies permit. AsyncFC layers over existing models and unmodified function implementations, requiring no fine-tuning or changes to the standard synchronous function-calling protocol. Across standard function-calling benchmarks and adapted software engineering benchmarks, AsyncFC significantly reduces end-to-end task completion time while preserving task accuracy. Furthermore, these results reveal that LLMs possess a native capability to reason over symbolic futures that represent unresolved execution results, enabling an asynchronous paradigm for model-tool interaction.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.