다중 에이전트에서 단일 에이전트로: 스킬 증류가 언제 유용한가?
From Multi-Agent to Single-Agent: When Is Skill Distillation Beneficial?
다중 에이전트 시스템(MAS)은 전문성을 분산하여 복잡한 작업을 해결하지만, 이는 종종 과도한 조정 오버헤드, 컨텍스트 단편화, 그리고 취약한 단계 순서 문제를 야기합니다. MAS를 단일 에이전트 스킬로 증류하면 이러한 비용을 피할 수 있지만, 언제 어떤 내용을 증류해야 하는지에 대한 명확한 원칙적인 답변은 존재하지 않습니다. 흥미롭게도, 실제 결과는 놀라울 정도로 일관성이 없습니다. 동일한 작업에 대한 지표에 따라 스킬 성능 향상은 28%에서 성능 저하 2%까지 다양합니다. 본 연구에서는 스킬 유용성이 작업 자체가 아닌 평가 지표에 의해 결정된다는 것을 밝혀냅니다. 우리는 스킬 유용성을 예측하는 첫 번째 사전 예측 모델인 '메트릭 자유도(Metric Freedom, $F$)를 제안합니다. $F$는 만텔 테스트를 통해 출력 다양성과 점수 변동 간의 상관관계를 정량화하여 지표의 점수 공간의 위상적 강성을 측정합니다. $F$를 기반으로, 우리는 두 단계로 구성된 적응형 증류 프레임워크를 제안합니다. 1단계는 선택적 추출 메커니즘으로, 탐색을 유지하기 위해 '자유로운' 지표에 대한 제한적인 구조를 제거하면서 도구와 지식을 추출합니다. 2단계는 '강직한' 지표($F extless; 0.6$)에 대해서만 계산 집약적인 반복 개선을 수행하여 경로-지역 과적합을 제거합니다. 4개의 작업, 11개의 데이터 세트, 그리고 6개의 지표에 대한 평가 결과, $F$는 스킬 유용성을 강력하게 예측합니다($ρ = -0.62$, $p < 0.05$). 놀랍게도, 동일한 에이전트 경로가 강직한 지표와 자유로운 지표 하에서 완전히 반대되는 스킬 성능 향상을 나타내며, 이는 스킬 유용성이 근본적으로 지표 수준의 특성임을 보여줍니다. 이러한 정보를 바탕으로, 우리의 적응형 에이전트는 원래의 MAS와 동등하거나 뛰어난 성능을 보이면서 비용을 최대 8배, 지연 시간을 최대 15배까지 줄입니다.
Multi-agent systems (MAS) tackle complex tasks by distributing expertise, though this often comes at the cost of heavy coordination overhead, context fragmentation, and brittle phase ordering. Distilling a MAS into a single-agent skill can bypass these costs, but this conversion lacks a principled answer for when and what to distill. Instead, the empirical outcome is surprisingly inconsistent: skill lift ranges from a 28% improvement to a 2% degradation across metrics of the exact same task. In this work, we reveal that skill utility is governed not by the task, but by the evaluation metric. We introduce Metric Freedom ($F$), the first a priori predictor of skill utility. $F$ measures the topological rigidity of a metric's scoring landscape by quantifying how output diversity couples with score variance via a Mantel test. Guided by $F$, we propose a two-stage adaptive distillation framework. Stage 1 acts as a selective extraction mechanism, extracting tools and knowledge while discarding restrictive structures on "free" metrics to preserve exploration. Stage 2 targets computationally intensive iterative refinement exclusively toward "rigid" metrics ($F \lesssim 0.6$) to eliminate trajectory-local overfitting. Evaluating across 4 tasks, 11 datasets, and 6 metrics, $F$ strongly predicts skill utility ($ρ= -0.62$, $p < 0.05$). Strikingly, identical agent trajectories yield diametrically opposite skill lifts under rigid versus free metrics, demonstrating that skill utility is fundamentally a metric-level property. Driven by this signal, our adaptive agent matches or exceeds the original MAS while reducing cost up to 8$\times$ and latency by up to 15$\times$.
AI Analysis
Korean Summary
Key Innovations
- 지표 자유도(Metric Freedom, F) 제안: 출력의 다양성과 평가 점수 분산 간의 상관관계를 Mantel 테스트를 통해 정량화하여, 특정 환경에서 기술 증류가 유익할지 사전에(a priori) 예측하는 최초의 지표.
- 적응형 2단계 기술 증류 프레임워크(Adaptive Two-Stage Distillation): 일률적인 변환 방식에서 벗어나, F값에 따라 도구(Tools), 지식, 파이프라인 구조의 유지 여부를 유동적으로 결정하는 시스템.
- 선택적 기술 반복 최적화(Skill Iterator): 높은 F값 환경에서의 과적합 및 노이즈를 피하기 위해, 구조적 안내가 실제 효과를 발휘하는 엄격한 지표(F ≲ 0.6)에서만 4개 에이전트 기반의 반복적 성능 정제를 수행.
- 기술 평가 패러다임의 전환: 기술 증류의 유효성이 '작업(Task)' 단위가 아닌 '평가 지표(Metric)' 단위의 속성임을 밝혀내고, 동일한 에이전트 궤적이라도 평가 지표에 따라 상반된 성능 변화를 보일 수 있음을 입증.
Learning & Inference Impact
학습(최적화/증류) 단계에서는 대상 평가 지표의 자유도(F)를 기준 삼아 불필요한 구조적 제약과 반복 학습을 배제합니다. 자유도가 높은 환경에서는 반복 정제 과정에서 발생할 수 있는 궤적 국소적 과적합(trajectory-local overfitting)을 방지하고 도구 활용성만 살리는 반면, 엄격한 환경에서는 적극적인 반복 분석을 통해 정교한 단일 에이전트 지시문을 생성해 냅니다. 추론(Inference) 단계에서는 기존 다중 에이전트 시스템의 가장 큰 문제점인 에이전트 간 통신 오버헤드, 컨텍스트 파편화, 단계별 병목 현상을 완전히 제거합니다. 이렇게 최적화된 단일 에이전트 시스템은 프롬프트 캐싱의 이점을 온전히 누릴 수 있어 원본 MAS 대비 추론 비용을 1.4~8배 절감하고, 추론에 걸리는 지연 시간(Latency)을 최대 15배까지 기하급수적으로 단축시켜 실용적인 서비스 배포(Deployment)에 지대한 영향을 미칩니다.
Technical Difficulty
Estimated implementation complexity based on methodology.