2602.02138v2 Feb 02, 2026 cs.SE

CAM: 다중 에이전트 코드 생성 시스템을 위한 인과 관계 기반 분석 프레임워크

CAM: A Causality-based Analysis Framework for Multi-Agent Code Generation Systems

Liwen Wang
Liwen Wang
Citations: 5
h-index: 2
Zongyi Lyu
Zongyi Lyu
Citations: 8
h-index: 2
Zhenlan Ji
Zhenlan Ji
HKUST
Citations: 216
h-index: 9
Songqiang Chen
Songqiang Chen
Citations: 32
h-index: 3
Yuheng Huang
Yuheng Huang
Citations: 40
h-index: 3
Shuai Wang
Shuai Wang
Citations: 107
h-index: 6
Shing-Chi Cheung
Shing-Chi Cheung
Citations: 153
h-index: 3

다중 에이전트 코드 생성 시스템(MACGS)이 놀라운 성공을 거두었음에도 불구하고, 다중 에이전트 아키텍처의 고유한 복잡성으로 인해 상당한 양의 중간 결과물이 생성됩니다. 현재까지 이러한 중간 결과물들이 시스템의 정확성에 미치는 개별적인 중요성은 불투명하며, 이는 MACGS 설계의 효과적인 최적화를 방해합니다. 이러한 문제를 해결하기 위해, 본 연구에서는 MACGS의 인과 관계 기반 분석 프레임워크인 CAM을 제안합니다. CAM은 다양한 중간 특징들이 시스템 정확성에 기여하는 정도를 체계적으로 정량화합니다. 중간 결과물을 포괄적으로 분류하고, 현실적인 오류를 중간 특징에 체계적으로 시뮬레이션함으로써, 시스템 정확성에 중요한 특징들을 식별하고, 이들의 중요도 순위를 종합합니다. 식별된 중요도 순위에 대한 광범위한 실증 분석을 수행했습니다. 분석 결과 흥미로운 사실들이 밝혀졌습니다. 첫째, 맥락 의존적인 특징들이 발견되었는데, 이는 다른 특징들과의 상호 작용을 통해 중요성이 나타나는 특징이며, 이는 MACGS의 품질 보증이 교차 특징 일관성 검사를 포함해야 함을 시사합니다. 둘째, 상대적인 강점에 따라 다른 백엔드 LLM을 할당하는 하이브리드 백엔드 MACGS가 최대 7.2%의 Pass@1 성능 향상을 달성한다는 사실이 밝혀졌으며, 이는 향후 MACGS 설계에 있어 하이브리드 아키텍처가 유망한 방향임을 강조합니다. 또한, CAM의 실용적인 유용성을 두 가지 응용 분야를 통해 입증했습니다. (1) 최상위 3개 중요도 순위의 특징을 최적화하여 73.3%의 성공률을 달성하는 오류 복구, (2) 생성 성능을 유지하면서 최대 66.8%의 중간 토큰 소비를 줄이는 특징 제거입니다. 본 연구는 MACGS 설계 및 배포에 대한 실질적인 통찰력을 제공하며, 인과 관계 분석을 MACGS를 이해하고 개선하는 강력한 방법론으로 확립합니다.

Original Abstract

Despite the remarkable success that Multi-Agent Code Generation Systems (MACGS) have achieved, the inherent complexity of multi-agent architectures produces substantial volumes of intermediate outputs. To date, the individual importance of these intermediate outputs to the system correctness remains opaque, which impedes targeted optimization of MACGS designs. To address this challenge, we propose CAM, the first \textbf{C}ausality-based \textbf{A}nalysis framework for \textbf{M}ACGS that systematically quantifies the contribution of different intermediate features for system correctness. By comprehensively categorizing intermediate outputs and systematically simulating realistic errors on intermediate features, we identify the important features for system correctness and aggregate their importance rankings. We conduct extensive empirical analysis on the identified importance rankings. Our analysis reveals intriguing findings: first, we uncover context-dependent features\textemdash features whose importance emerges mainly through interactions with other features, revealing that quality assurance for MACGS should incorporate cross-feature consistency checks; second, we reveal that hybrid backend MACGS with different backend LLMs assigned according to their relative strength achieves up to 7.2\% Pass@1 improvement, underscoring hybrid architectures as a promising direction for future MACGS design. We further demonstrate CAM's practical utility through two applications: (1) failure repair which achieves a 73.3\% success rate by optimizing top-3 importance-ranked features and (2) feature pruning that reduces up to 66.8\% intermediate token consumption while maintaining generation performance. Our work provides actionable insights for MACGS design and deployment, establishing causality analysis as a powerful approach for understanding and improving MACGS.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!