2602.23701v1 Feb 27, 2026 cs.AI

평탄한 로그에서 인과 그래프로: LLM 기반 다중 에이전트 시스템의 계층적 오류 원인 분석

From Flat Logs to Causal Graphs: Hierarchical Failure Attribution for LLM-based Multi-Agent Systems

Yawen Wang
Yawen Wang
Citations: 210
h-index: 9
Wenjie Wu
Wenjie Wu
Citations: 28
h-index: 2
Junjie Wang
Junjie Wang
Citations: 55
h-index: 3
Qing Wang
Qing Wang
Citations: 1,534
h-index: 17

LLM(대규모 언어 모델) 기반 다중 에이전트 시스템(MAS)은 복잡한 영역에서 뛰어난 성능을 보여주지만, 내재적인 불안정성과 불투명한 오류 발생 메커니즘을 가지고 있습니다. 기존의 오류 원인 분석 방법들은 직접적인 프롬프팅, 비용이 많이 드는 재현, 또는 지도 학습 등을 활용하지만, 대부분 실행 로그를 단순한 시퀀스로 취급합니다. 이러한 선형적인 관점은 MAS에 내재된 복잡한 인과 관계를 파악하는 데 어려움을 초래하며, 결과적으로 관찰 가능성이 낮아지고 책임 경계가 모호해집니다. 이러한 문제점을 해결하기 위해, 우리는 혼란스러운 실행 경로를 구조화된 계층적 인과 그래프로 변환하는 새로운 프레임워크인 CHIEF를 제안합니다. CHIEF는 계층적 오라클 기반의 역추적을 활용하여 합성된 가상 오라클을 통해 효율적으로 탐색 공간을 줄입니다. 마지막으로, CHIEF는 점진적인 인과 관계 분석 전략을 통해 반사실적 기여도를 구현하여, 실제 근본 원인을 단순한 증상과 엄격하게 구분합니다. Who&When 벤치마크에서의 실험 결과, CHIEF는 에이전트 및 단계 수준의 정확도에서 8가지 강력하고 최첨단 모델보다 뛰어난 성능을 보였습니다. 추가적인 분석 결과, 제안된 각 모듈이 중요한 역할을 한다는 것을 확인했습니다.

Original Abstract

LLM-powered Multi-Agent Systems (MAS) have demonstrated remarkable capabilities in complex domains but suffer from inherent fragility and opaque failure mechanisms. Existing failure attribution methods, whether relying on direct prompting, costly replays, or supervised fine-tuning, typically treat execution logs as flat sequences. This linear perspective fails to disentangle the intricate causal links inherent to MAS, leading to weak observability and ambiguous responsibility boundaries. To address these challenges, we propose CHIEF, a novel framework that transforms chaotic trajectories into a structured hierarchical causal graph. It then employs hierarchical oracle-guided backtracking to efficiently prune the search space via sybthesized virtual oracles. Finally, it implements counterfactual attribution via a progressive causal screening strategy to rigorously distinguish true root causes from propagated symptoms. Experiments on Who&When benchmark show that CHIEF outperforms eight strong and state-of-the-art baselines on both agent- and step-level accuracy. Ablation studies further confirm the critical role of each proposed module.

0 Citations
0 Influential
8.5 Altmetric
42.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!