2605.05716v1 May 07, 2026 cs.AI

더 많은 것이 항상 더 나은 것은 아니다: LLM 에이전트 스캐폴딩에서의 구성 요소 간 간섭

More Is Not Always Better: Cross-Component Interference in LLM Agent Scaffolding

Ming Liu
Ming Liu
Citations: 47
h-index: 4

LLM 에이전트 시스템은 계획, 도구, 메모리, 자기 성찰, 검색 등 다양한 스캐폴딩 구성 요소를 결합하여 구축되며, 일반적으로 '더 많을수록 좋다'는 전제하에 설계됩니다. 본 연구에서는 구성 요소 간의 파괴적인 상호 작용으로 인한 성능 저하를 의미하는 '구성 요소 간 간섭 (CCI)'을 분석합니다. Llama-3.1-8B/70B 모델을 사용하여 HotpotQA 및 GSM8K 데이터셋에 대해 다섯 가지 구성 요소의 모든 2^5 = 32개의 조합 (총 96가지 조건, 최대 10개의 실험 반복)을 활용한 완전 요인 실험을 수행했습니다. 'All-In' 시스템 (모든 구성 요소 사용)은 일관되게 최적의 성능을 보이지 않았습니다. HotpotQA 데이터셋에서 단일 도구만 사용하는 에이전트가 'All-In' 시스템보다 32% 더 높은 F1 점수 (0.233 vs 0.177, p=0.023)를 달성했으며, GSM8K 데이터셋에서 3개의 구성 요소만 사용하는 조합이 'All-In' 시스템보다 79% 더 높은 점수 (0.43 vs 0.24, p=0.010)를 보였습니다. 최적의 구성 요소 수는 작업에 따라 다르며 (k*=1-4), 모델 크기에 민감합니다. 70B 모델에서는 8B 모델에서 성능 저하를 일으켰던 구성 요소 조합이 오히려 성능 향상을 가져올 수 있지만, 'All-In' 시스템은 여전히 최적의 조합보다 낮은 성능을 보였습니다. 메인 효과 회귀 분석 (R^2=0.916, 조정된 R^2=0.899, LOOCV=0.872)을 수행하고, 정확한 Shapley 값을 계산한 결과, 325개의 부분 모듈성 위반 중 183개 (56.3%)가 확인되어 탐욕적인 선택 방식의 신뢰성이 낮음을 나타냅니다. 도구 사용, 자기 성찰, 검색 간의 긍정적인 상승 효과 (INT_3=+0.175, 95% CI [+0.003,+0.351])를 탐색적으로 보고합니다. 구성 요소 간 간섭은 다른 모델 패밀리 (Qwen2.5)에서도 관찰되며, 프롬프트 재구성에도 강건한 특성을 보입니다. 본 연구 결과는, 현재의 '최대한 많은 구성 요소를 사용하는' 에이전트 기본 설정이, 상호 작용을 고려한 분석을 통해 도출된 작업별 최적의 부분 집합 선택으로 대체되어야 함을 시사합니다.

Original Abstract

LLM agent systems are built by stacking scaffolding components (planning, tools, memory, self-reflection, retrieval) assuming more is better. We study cross-component interference (CCI): degradation when components interact destructively. We run a full factorial experiment over all 2^5=32 subsets of five components on HotpotQA and GSM8K with Llama-3.1-8B/70B (96 conditions, up to 10 seeds). The All-In system is consistently suboptimal: on HotpotQA, a single-tool agent surpasses All-In by 32% (F1 0.233 vs 0.177, p=0.023); on GSM8K, a 3-component subset beats All-In by 79% (0.43 vs 0.24, p=0.010). Optimal component count is task-dependent (k*=1-4) and scale-sensitive: at 70B, combinations that hurt at 8B provide gains, though All-In still trails the best subset. We fit a main-effects regression (R^2=0.916, adj-R^2=0.899, LOOCV=0.872), compute exact Shapley values, and find 183/325 submodularity violations (56.3%), showing greedy selection is unreliable. A three-body synergy among Tool Use, Self-Reflection, and Retrieval (INT_3=+0.175, 95% CI [+0.003,+0.351]) is reported as exploratory. CCI replicates across model families (Qwen2.5) and is robust to prompt paraphrasing. Our findings suggest maximally-equipped agent defaults should be replaced by task-specific subset selection via interaction-aware analysis.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!