2603.21357v1 Mar 22, 2026 cs.AI

AgentHER: LLM 에이전트 경로 재표시를 위한 후향 경험 재활용

AgentHER: Hindsight Experience Replay for LLM Agent Trajectory Relabeling

Liang Ding
Liang Ding
University of Sydney / JD Explore Academy
Citations: 4,986
h-index: 38

LLM 에이전트는 대부분의 실제 작업에서 실패합니다. 예를 들어, GPT-4o는 WebArena 탐색 작업에서 15% 미만의 성공률을 보이며, ToolBench에서 pass@1 지표가 55% 미만입니다 (Zhou et al., 2024; Qin et al., 2024). 하지만, 매번 실패한 경로를 버리는 것은 수집된 경험의 주요 원천을 낭비하는 것입니다. 본 연구에서는 AgentHER라는 프레임워크를 제안합니다. AgentHER는 후향 경험 재활용(HER; Andrychowicz et al., 2017)의 원리를 자연어 에이전트 경로에 적용하여 오프라인 데이터 증강을 통해 손실된 학습 신호를 복구합니다. 핵심 아이디어는 다음과 같습니다. 목표 A에 실패한 경로는 종종 달성 가능한 대체 목표 B에 대한 올바른 예시가 될 수 있습니다. AgentHER는 이 아이디어를 다음과 같은 네 단계 파이프라인을 통해 구현합니다. 실패 분류, 결과 추출, LLM 기반 프롬프트 재표시(신뢰도 게이팅 포함), 데이터 패키징. 이를 통해 버려지는 실패 데이터를 고품질 SFT, DPO, 및 ShareGPT 학습 데이터로 변환합니다. 이 방법은 규칙 기반 및 LLM 기반 평가 모두를 사용하여 구현되었습니다. WebArena (Zhou et al., 2024) 및 ToolBench (Qin et al., 2024)에서 AgentHER는 성공 데이터만 사용한 SFT 모델보다 4가지 모델 패밀리(GPT-4o, Qwen2.5-72B/7B, LLaMA-3.1-8B)에서 +7.1~11.7pp의 성능 향상을 보였습니다. 또한 데이터 효율성을 2배 향상시켜, 기준 성능을 달성하면서 성공적인 예시 데이터의 50%만 사용했습니다. 이러한 성능 향상은 1.5B에서 72B 파라미터 모델에서 일관적으로 나타났으며 (+5.8~9.2pp), 반복적인 적용을 통해 성능이 더욱 향상되었습니다 (+2.1pp). 인간 평가 결과, 다중 평가자 검증을 통해 97.7%의 재표시 정확도를 확인했습니다.

Original Abstract

LLM agents fail on the majority of real-world tasks -- GPT-4o succeeds on fewer than 15% of WebArena navigation tasks and below 55% pass@1 on ToolBench (Zhou et al., 2024; Qin et al., 2024) -- yet every failed trajectory is routinely discarded, wasting the dominant source of collected experience. We introduce AgentHER, a framework that recovers this lost training signal by adapting the Hindsight Experience Replay (HER; Andrychowicz et al., 2017) principle to natural-language agent trajectories for offline data augmentation. The key insight is simple: a trajectory that fails goal A is often a correct demonstration for some achievable alternative goal B. AgentHER realises this idea through a four-stage pipeline -- failure classification, outcome extraction, LLM-guided prompt relabeling with confidence gating, and data packaging -- that converts discarded failures into high-quality SFT, DPO, and ShareGPT training data, with both zero-cost rule-based and LLM-judge implementations. On WebArena (Zhou et al., 2024) and ToolBench (Qin et al., 2024), AgentHER improves over success-only SFT by +7.1-11.7 pp across four model families (GPT-4o, Qwen2.5-72B/7B, LLaMA-3.1-8B), while achieving 2x data efficiency -- matching baseline performance with only 50% of successful demonstrations. Gains are consistent from 1.5B to 72B parameters (+5.8-9.2 pp) and compound under iterative redeployment (+2.1 pp over additional rounds). Human evaluation confirms 97.7% relabeling precision under multi-judge verification.

1 Citations
0 Influential
19 Altmetric
96.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!