2604.25161v1 Apr 28, 2026 cs.MA

무엇이 잘못되었는가? 시각-언어 탐색 에이전트에 대한 능력 기반 실패 원인 분석

Where Did It Go Wrong? Capability-Oriented Failure Attribution for Vision-and-Language Navigation Agents

Yawen Wang
Yawen Wang
Citations: 210
h-index: 9
Junjie Wang
Junjie Wang
Citations: 60
h-index: 4
Xiaofei Xie
Xiaofei Xie
Citations: 126
h-index: 6
Shoubin Li
Shoubin Li
Citations: 140
h-index: 6
Qing Wang
Qing Wang
Citations: 10
h-index: 2
Fanjiang Xu
Fanjiang Xu
Citations: 21
h-index: 3
Jianming Chen
Jianming Chen
Citations: 12
h-index: 2

안전이 중요한 응용 분야인 시각-언어 탐색(VLN)과 같은 환경에서 작동하는 에이전트는 인지, 기억, 계획, 의사 결정 등 여러 상호 의존적인 능력을 필요로 하며, 이로 인해 오류의 위치를 파악하고 원인을 분석하기 어렵습니다. 기존의 테스트 방법은 주로 시스템 수준에서 이루어지며, 어떤 능력의 부족이 작업 실패를 야기하는지에 대한 제한적인 정보를 제공합니다. 본 연구에서는 능력을 중심으로 테스트를 수행하는 방식을 제안합니다. 이 방식은 (1) 시드 선택 및 변형을 통한 적응적 테스트 케이스 생성, (2) 특정 능력을 평가하여 능력별 오류를 식별하는 능력 기반 검증 도구, 그리고 (3) 오류를 능력에 연결하고 추가 테스트 생성을 안내하는 피드백 메커니즘을 결합하여 실패를 감지하고 원인을 분석합니다. 실험 결과, 제안하는 방법은 기존의 최첨단 방법보다 더 많은 실패 사례를 발견하고, 능력 수준의 결함을 더 정확하게 지적하며, 실제 에이전트 개선을 위한 더 명확하고 실행 가능한 지침을 제공합니다.

Original Abstract

Embodied agents in safety-critical applications such as Vision-Language Navigation (VLN) rely on multiple interdependent capabilities (e.g., perception, memory, planning, decision), making failures difficult to localize and attribute. Existing testing methods are largely system-level and provide limited insight into which capability deficiencies cause task failures. We propose a capability-oriented testing approach that enables failure detection and attribution by combining (1) adaptive test case generation via seed selection and mutation, (2) capability oracles for identifying capability-specific errors, and (3) a feedback mechanism that attributes failures to capabilities and guides further test generation. Experiments show that our method discovers more failure cases and more accurately pinpoints capability-level deficiencies than state-of-the-art baselines, providing more interpretable and actionable guidance for improving embodied agents.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!