2604.11322v1 Apr 13, 2026 cs.CL

LLM은 도구의 관련성을 알까요? 도구 호출에서의 구조적 정렬 편향 해부

Do LLMs Know Tool Irrelevance? Demystifying Structural Alignment Bias in Tool Invocations

Ge Zhang
Ge Zhang
Citations: 93
h-index: 4
Xixun Lin
Xixun Lin
Citations: 772
h-index: 14
Pengfei Cao
Pengfei Cao
Institute of Automation, Chinese Academy of Sciences
Citations: 1,615
h-index: 20
Yilong Liu
Yilong Liu
Citations: 23
h-index: 1
Fang Fang
Fang Fang
Citations: 46
h-index: 4
Yanan Cao
Yanan Cao
Citations: 189
h-index: 7

대규모 언어 모델(LLM)은 외부 도구를 활용하는 데 있어 놀라운 능력을 보여주었습니다. 그러나 실제로 LLM은 종종 사용자의 질문과 관련 없는 도구에 노출되는데, 이 경우 바람직한 행동은 이러한 도구를 사용하지 않는 것입니다. 본 연구에서는 도구 거부 과정에서 간과되어 온 광범위한 기계적 결함을 발견했는데, 이를 '구조적 정렬 편향'이라고 명명했습니다. 구조적 정렬 편향은 도구가 사용자의 목표를 달성하지 못하더라도, 쿼리 속성을 도구 파라미터에 유효하게 할당할 수 있는 경우 LLM이 여전히 해당 도구를 호출하려는 경향이 있다는 것입니다. 이 편향을 체계적으로 연구하기 위해, 우리는 구조적 정렬과 의미적 관련성을 분리하는 새로운 데이터셋인 SABEval을 소개합니다. 분석 결과, 구조적 정렬 편향은 LLM의 도구 호출 오류를 심각하게 유발하지만, 기존 평가에서는 대부분 고려되지 않는 것으로 나타났습니다. 이 편향의 내부 메커니즘을 조사하기 위해, 우리는 대조적 어텐션 추적(Contrastive Attention Attribution) 방법을 제안합니다. 이는 의미 검사와 구조적 매칭을 위한 두 가지 상반된 경로를 보여줍니다. 이러한 경로의 상대적인 강도는 LLM의 도구 호출 결정에 영향을 미칩니다. 이러한 결과를 바탕으로, 우리는 광범위한 실험을 통해 구조적 정렬 편향을 효과적으로 완화하는 재균형 전략을 추가로 제시합니다. 이 전략은 일반적인 도구 사용 능력을 저하시키지 않고도 편향을 줄입니다.

Original Abstract

Large language models (LLMs) have demonstrated impressive capabilities in utilizing external tools. In practice, however, LLMs are often exposed to tools that are irrelevant to the user's query, in which case the desired behavior is to refrain from invocations. In this work, we identify a widespread yet overlooked mechanistic flaw in tool refusal, which we term structural alignment bias: Even when a tool fails to serve the user's goal, LLMs still tend to invoke it whenever query attributes can be validly assigned to tool parameters. To systematically study this bias, we introduce SABEval, a new dataset that decouples structural alignment from semantic relevance. Our analysis shows that structural alignment bias induces severe tool-invocation errors in LLMs, yet remains largely unaccounted for in existing evaluations. To investigate the internal mechanisms underlying this bias, we propose Contrastive Attention Attribution, which reveals two competing pathways for semantic checking and structural matching. The relative strength of these pathways drives LLMs' tool invocation decisions. Based on these findings, we further introduce a rebalancing strategy that effectively mitigates structural alignment bias, as demonstrated by extensive experiments, without degrading general tool-use capabilities.

0 Citations
0 Influential
10 Altmetric
50.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!