2605.06457v1 May 07, 2026 cs.AI

작업 성공을 넘어: LLM 기반 에이전트 결제 시스템에서 워크플로우 충실도 측정

Beyond Task Success: Measuring Workflow Fidelity in LLM-Based Agentic Payment Systems

Donghao Huang

Citations: 112

h-index: 5

Zhaoxia Wang

Citations: 71

h-index: 4

Joon Kiat Chua

Citations: 76

h-index: 2

LLM 기반 다중 에이전트 시스템은 점점 더 많은 결제 워크플로우에 활용되고 있지만, 현재 사용되는 주요 지표인 작업 성공률(TSR)과 에이전트 핸드오프 F1 점수(HF1)는 최종 결과 또는 순서에 상관없는 경로 결정만을 반영합니다. 본 연구에서는 에이전트 성공률(ASR)을 제안합니다. ASR은 관찰된 에이전트 실행 순서와 예상되는 실행 순서를 전환 단계에서 비교하는 경로 충실도 지표로, 성능을 전환 재현율(Transition Recall)과 전환 정밀도(Transition Precision)로 분해합니다. 계층적 다중 에이전트 결제 시스템(HMASP)을 사용하여 18개의 LLM과 90,000개의 작업 인스턴스에 ASR을 적용한 결과, 18개의 모델 중 10개가 결제 과정에서 확인 단계를 체계적으로 건너뛰는 것으로 나타났습니다. 이 현상은 TSR과 HF1으로는 감지할 수 없었습니다. 반면, 8개의 모델은 해당 단계를 완벽하게 실행했습니다. 주목할 점은, 완벽한 TSR과 HF1을 달성한 GPT-4.1 모델에서도 숨겨진 워크플로우 단축 경로가 존재하는 반면, GPT-5.2 모델은 완벽한 ASR을 달성했습니다. ASR 진단을 기반으로 한 프롬프트 개선 및 결정적 경로 제어는 이전에는 성능이 낮았던 모델의 TSR을 크게 향상시켰으며, 최대 +93.8%의 개선 효과를 보였습니다. 이는 규제된 분야에서 경로 수준의 평가가 필수적임을 보여줍니다.

Original Abstract

LLM-based multi-agent systems are increasingly deployed for payment workflows, yet prevailing metrics, Task Success Rate (TSR) and Agent Handoff F1-Score (HF1), capture only final outcomes or unordered routing decisions. We introduce the Agentic Success Rate (ASR), a trajectory-fidelity metric that compares observed and expected agent execution sequences at the transition level, decomposing performance into Transition Recall and Transition Precision. Applied to the Hierarchical Multi-Agent System for Payments (HMASP) across 18 LLMs and 90,000 task instances, ASR reveals that 10 of 18 models systematically skip a confirmation checkpoint during payment checkout, a deviation invisible to both TSR and HF1, while 8 models enforce the checkpoint perfectly. Notably, GPT-4.1 exhibits hidden workflow shortcuts despite achieving perfect TSR and HF1, while GPT-5.2 achieves perfect ASR. Prompt refinements and deterministic routing guards guided by ASR diagnostics yield substantial TSR improvements, with gains up to +93.8 percentage points for previously struggling models, demonstrating that trajectory-level evaluation is essential in regulated domains.

1 Citations

0 Influential

2.5 Altmetric

13.5 Score

Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!