HINTBench: Horizon-agent 고유 위험 비공격 트래젝토리 벤치마크
HINTBench: Horizon-agent Intrinsic Non-attack Trajectory Benchmark
기존의 에이전트 안전성 평가는 주로 외부 요인에 의해 유발되는 위험에 초점을 맞추었습니다. 하지만 에이전트는 여전히 안전하지 않은 경로를 따를 수 있으며, 이러한 상황은 겉으로는 괜찮아 보일 수 있습니다. 우리는 이러한 상호 보완적이지만 상대적으로 연구가 부족한 측면을, 에이전트의 내부적인 실패를 나타내는 '고유 위험'의 관점에서 연구합니다. 고유한 실패는 잠재적으로 존재하며, 장기간의 실행 과정에서 전파되어 결국 심각한 결과를 초래할 수 있습니다. 이러한 상황을 평가하기 위해, 우리는 '비공격적인 고유 위험 감사'를 도입하고, 629개의 에이전트 트래젝토리(위험: 523개, 안전: 106개; 평균 33단계)로 구성된 벤치마크인 **HINTBench**를 제시합니다. HINTBench는 위험 감지, 위험 단계 위치 파악, 그리고 고유한 실패 유형 식별이라는 세 가지 작업을 지원합니다. 데이터는 통일된 다섯 가지 제약 조건을 기반으로 구성되어 있습니다. 실험 결과, 에이전트 안전성 평가에 상당한 격차가 존재함을 보여줍니다. 강력한 LLM은 트래젝토리 수준의 위험 감지에는 잘 작동하지만, 위험 단계 위치 파악에서는 엄격한 F1 점수가 35% 미만으로 떨어지며, 더욱 세분화된 실패 진단은 훨씬 더 어렵습니다. 기존의 안전 장치 모델은 이 환경에 잘 적용되지 않습니다. 이러한 결과는 고유 위험 감사(intrinsic risk auditing)를 에이전트 안전성을 위한 중요한 과제로 제시합니다.
Existing agent-safety evaluation has focused mainly on externally induced risks. Yet agents may still enter unsafe trajectories under benign conditions. We study this complementary but underexplored setting through the lens of \emph{intrinsic} risk, where intrinsic failures remain latent, propagate across long-horizon execution, and eventually lead to high-consequence outcomes. To evaluate this setting, we introduce \emph{non-attack intrinsic risk auditing} and present \textbf{HINTBench}, a benchmark of 629 agent trajectories (523 risky, 106 safe; 33 steps on average) supporting three tasks: risk detection, risk-step localization, and intrinsic failure-type identification. Its annotations are organized under a unified five-constraint taxonomy. Experiments reveal a substantial capability gap: strong LLMs perform well on trajectory-level risk detection, but their performance drops to below 35 Strict-F1 on risk-step localization, while fine-grained failure diagnosis proves even harder. Existing guard models transfer poorly to this setting. These findings establish intrinsic risk auditing as an open challenge for agent safety.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.