ASA: 훈련 없이 도구 사용 에이전트를 위한 표현 학습
ASA: Training-Free Representation Engineering for Tool-Calling Agents
LLM 에이전트를 특정 도메인의 도구 사용에 적응시키는 것은 변화하는 인터페이스 환경에서 여전히 불안정합니다. 프롬프트 및 스키마 엔지니어링은 쉽게 적용할 수 있지만, 데이터 분포 변화 및 엄격한 파서에 취약할 수 있으며, 지속적인 파라미터 효율적인 미세 조정은 안정성을 향상시키지만 훈련, 유지 보수 및 잠재적인 망각의 비용이 발생합니다. 우리는 중요한 Lazy Agent의 실패 모드를 발견했습니다. 즉, 도구 사용의 필요성이 중간 레이어 활성화 값에서 거의 완벽하게 파악될 수 있지만, 모델은 여전히 도구 사용 모드로 전환하는 것을 꺼립니다. 이는 표현과 행동 간의 간극을 보여줍니다. 우리는 훈련 없이 추론 시간에 작동하는 제어기인 Activation Steering Adapter (ASA)를 제안합니다. ASA는 중간 레이어에 단일 단계 개입을 수행하고, 라우터에 의해 조건화된 steering 벡터의 혼합을 사용하여 도구 도메인을 타겟팅하며, probe 기반의 signed gate를 통해 실제 의도를 증폭시키고 잘못된 트리거를 억제합니다. MTU-Bench에서 Qwen2.5-1.5B 모델을 사용하여 ASA는 엄격한 도구 사용 F1 점수를 0.18에서 0.50으로 향상시키고, 오탐율을 0.15에서 0.05로 감소시켰습니다. 이는 약 20KB의 휴대용 자산만 사용하고 가중치 업데이트 없이 이루어졌습니다.
Adapting LLM agents to domain-specific tool calling remains notably brittle under evolving interfaces. Prompt and schema engineering is easy to deploy but often fragile under distribution shift and strict parsers, while continual parameter-efficient fine-tuning improves reliability at the cost of training, maintenance, and potential forgetting. We identify a critical Lazy Agent failure mode where tool necessity is nearly perfectly decodable from mid-layer activations, yet the model remains conservative in entering tool mode, revealing a representation-behavior gap. We propose Activation Steering Adapter (ASA), a training-free, inference-time controller that performs a single-shot mid-layer intervention and targets tool domains via a router-conditioned mixture of steering vectors with a probe-guided signed gate to amplify true intent while suppressing spurious triggers. On MTU-Bench with Qwen2.5-1.5B, ASA improves strict tool-use F1 from 0.18 to 0.50 while reducing the false positive rate from 0.15 to 0.05, using only about 20KB of portable assets and no weight updates.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.