실행 오류에 빠지다: 대규모 언어 모델의 도구 호출 기능에서 다국어 환경에서의 안정성 연구
Lost in Execution: On the Multilingual Robustness of Tool Calling in Large Language Models
대규모 언어 모델(LLM)은 구조화된 함수 호출을 통해 외부 도구를 사용하는 에이전트로 점점 더 많이 활용되고 있습니다. 최근 연구에서는 표준 영어 환경에서의 도구 호출 성능이 우수하다는 보고가 있지만, 다국어 사용자 인터랙션 환경에서의 도구 호출 안정성은 아직 충분히 연구되지 않았습니다. 본 연구에서는 진단 벤치마크인 MLCL을 소개하고, 중국어, 힌디어, 그리고 저자원 언어인 이보어를 포함한 다양한 언어 환경에서의 도구 호출 성능을 체계적으로 평가했습니다. 세밀한 오류 분석을 통해, 의도 이해 및 도구 선택은 올바르게 이루어졌음에도 불구하고 많은 실패가 발생한다는 것을 확인했습니다. 우리는 모델이 사용자의 언어로 의미적으로 적절한 파라미터 값을 생성하지만, 언어에 독립적인 실행 규칙을 위반하는 '파라미터 값 언어 불일치'가 주요 실패 요인임을 밝혀냈습니다. 또한, 다양한 추론 시간 시스템 전략을 평가한 결과, 이러한 전략들이 언어에 의한 실행 오류를 크게 줄이지만, 영어 수준의 성능을 완전히 회복하는 데는 실패한다는 것을 확인했습니다.
Large Language Models (LLMs) are increasingly deployed as agents that invoke external tools through structured function calls. While recent work reports strong tool-calling performance under standard English-centric evaluations, the robustness of tool calling under multilingual user interactions remains underexplored. In this work, we introduce MLCL, a diagnostic benchmark, and conduct a systematic evaluation of multilingual tool calling across Chinese, Hindi, and the low-resource language Igbo. Through fine-grained error analysis, we show that many failures occur despite correct intent understanding and tool selection. We identify parameter value language mismatch as a dominant failure mode, where models generate semantically appropriate parameter values in the user's language, violating language-invariant execution conventions. We further evaluate several inference-time system strategies and find that while these strategies substantially reduce language-induced execution errors, none of them can fully recover English-level performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.