ARM: 학습이 필요 없는 범용 LLM 에이전트 병합을 위한 역할 조건부 뉴런 이식
ARM: Role-Conditioned Neuron Transplantation for Training-Free Generalist LLM Agent Merging
상호작용하는 대규모 언어 모델(LLM) 에이전트는 급속도로 발전해 왔으나, 대부분 단일 환경에 특화되어 있어 다른 환경에는 견고하게 적응하지 못하는 한계가 있습니다. 모델 병합은 여러 전문가 모델을 하나로 통합함으로써 학습이 필요 없는 대안을 제공합니다. 본 논문에서는 LLM 에이전트의 모델 병합을 위해 활성화 유도 방식의 역할 조건부 뉴런 이식 방법인 ARM(Agent-Role Merging)을 제안합니다. ARM은 기존의 정적인 자연어 작업 중심의 병합 방법을 멀티턴(multi-turn) 에이전트 시나리오로 확장하고, 다양한 상호작용 환경에 대한 일반화 능력을 향상시킵니다. 이는 1) 병합된 백본 구축, 2) 역할 조건부 활성화 분석에 기반한 선택, 3) 세밀한 조정을 위한 뉴런 이식이라는 잘 설계된 3단계 프레임워크를 통해 달성됩니다. ARM은 경사(gradient) 기반 최적화 없이 효율성을 유지하면서도 벤치마크 간 일반화 성능을 개선합니다. 다양한 도메인에서 ARM 병합을 통해 얻은 모델은 기존 모델 병합 방법 및 도메인 특화 전문가 모델보다 우수한 성능을 보였으며, 강력한 도메인 외(out-of-domain) 일반화 능력을 입증하였습니다.
Interactive large language model agents have advanced rapidly, but most remain specialized to a single environment and fail to adapt robustly to other environments. Model merging offers a training-free alternative by integrating multiple experts into a single model. In this paper, we propose Agent-Role Merging (ARM), an activation-guided, role-conditioned neuron transplantation method for model merging in LLM agents. ARM improves existing merging methods from static natural language tasks to multi-turn agent scenarios, and over the generalization ability across various interactive environments. This is achieved with a well designed 3-step framework: 1) constructing merged backbones, 2) selection based on its role-conditioned activation analysis, and 3) neuron transplantation for fine-grained refinements. Without gradient-based optimization, ARM improves cross-benchmark generalization while enjoying efficiency. Across diverse domains, the model obtained via ARM merging outperforms prior model merging methods and domain-specific expert models, while demonstrating strong out-of-domain generalization.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.