AgentXRay: 워크플로 재구성을 통한 에이전트 시스템의 화이트박스화
AgentXRay: White-Boxing Agentic Systems via Workflow Reconstruction
거대 언어 모델은 복잡한 문제 해결에서 강력한 능력을 보여주었지만, 많은 에이전트 시스템은 불투명한 내부 워크플로로 인해 여전히 해석하고 제어하기 어렵다. 일부 프레임워크는 협업을 위한 명시적인 아키텍처를 제공하지만, 배포된 많은 에이전트 시스템은 사용자에게 블랙박스로 작동한다. 우리는 입출력 접근 권한만 사용하여 블랙박스 시스템을 근사하는, 명시적이고 해석 가능한 대리 워크플로를 합성하는 것을 목표로 하는 새로운 과업인 '에이전트 워크플로 재구성(AWR)'을 도입하여 이 문제를 해결한다. 우리는 AWR을 체인 구조의 워크플로 공간에서 이산적 에이전트 역할과 도구 호출에 대한 조합 최적화 문제로 정식화하는 검색 기반 프레임워크인 AgentXRay를 제안한다. 모델 증류와 달리, AgentXRay는 모델 파라미터에 접근하지 않고 관찰 가능한 출력 기반 프록시 지표 하에서 목표 출력과 일치하는 편집 가능한 화이트박스 워크플로를 생성한다. 방대한 검색 공간을 탐색하기 위해 AgentXRay는 프록시 품질과 검색 깊이를 동적으로 통합하는 점수 기반 적흑 가지치기(Red-Black Pruning) 메커니즘으로 강화된 몬테카를로 트리 탐색을 사용한다. 다양한 도메인에 걸친 실험을 통해 AgentXRay가 가지치기하지 않은 검색에 비해 더 높은 프록시 유사도를 달성하고 토큰 소비를 줄이며, 고정된 반복 예산 하에서 더 깊은 워크플로 탐색을 가능하게 함을 입증했다.
Large Language Models have shown strong capabilities in complex problem solving, yet many agentic systems remain difficult to interpret and control due to opaque internal workflows. While some frameworks offer explicit architectures for collaboration, many deployed agentic systems operate as black boxes to users. We address this by introducing Agentic Workflow Reconstruction (AWR), a new task aiming to synthesize an explicit, interpretable stand-in workflow that approximates a black-box system using only input--output access. We propose AgentXRay, a search-based framework that formulates AWR as a combinatorial optimization problem over discrete agent roles and tool invocations in a chain-structured workflow space. Unlike model distillation, AgentXRay produces editable white-box workflows that match target outputs under an observable, output-based proxy metric, without accessing model parameters. To navigate the vast search space, AgentXRay employs Monte Carlo Tree Search enhanced by a scoring-based Red-Black Pruning mechanism, which dynamically integrates proxy quality with search depth. Experiments across diverse domains demonstrate that AgentXRay achieves higher proxy similarity and reduces token consumption compared to unpruned search, enabling deeper workflow exploration under fixed iteration budgets.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.