컴퓨터 사용 에이전트의 유해 행위 복구: 인간 지향적 접근
Human-Guided Harm Recovery for Computer Use Agents
대규모 언어 모델(LM) 에이전트가 실제 컴퓨터 시스템에서 작업을 수행할 수 있게 되면서, 유해한 행동을 대규모로 방지하는 것뿐만 아니라, 방지가 실패했을 때 발생한 피해를 효과적으로 해결하는 방법이 필요합니다. 본 연구에서는 이러한 간과된 과제를 해결하기 위해, 실행 후 안전 장치로서의 유해 행위 복구 문제를 정의합니다. 이는 인간의 선호도에 맞춰, 유해한 상태에서 에이전트를 안전한 상태로 최적으로 회복시키는 문제입니다. 사용자 연구를 통해 가치 있는 복구 요소를 파악하고 자연어 지침을 생성하여 인간의 선호도를 반영한 복구를 구현했습니다. 1,150개의 쌍대 비교 데이터셋 분석 결과, 상황에 따라 중요 속성이 변화한다는 것을 알 수 있었습니다. 예를 들어, 포괄적인 장기적인 접근 방식보다 실용적이고 목표 지향적인 전략을 선호하는 경향이 나타났습니다. 이러한 학습된 통찰력을 활용하여, 테스트 시 에이전트 스캐폴드가 생성한 여러 후보 복구 계획을 재평가하는 보상 모델을 개발했습니다. 에이전트의 복구 능력을 체계적으로 평가하기 위해, 50개의 컴퓨터 사용 작업으로 구성된 벤치마크인 BackBench를 소개합니다. 인간 평가 결과, 개발된 보상 모델 스캐폴드가 기본 에이전트 및 지침 기반 스캐폴드보다 더 높은 품질의 복구 경로를 제공하는 것으로 나타났습니다. 이러한 연구 결과는 새로운 유형의 에이전트 안전 방법론의 토대를 마련합니다. 이 방법론은 유해 행위를 단순히 예방하는 것뿐만 아니라, 인간의 의도와 일치하여 피해의 여파를 해결하는 데 중점을 둡니다.
As LM agents gain the ability to execute actions on real computer systems, we need ways to not only prevent harmful actions at scale but also effectively remediate harm when prevention fails. We formalize a solution to this neglected challenge in post-execution safeguards as harm recovery: the problem of optimally steering an agent from a harmful state back to a safe one in alignment with human preferences. We ground preference-aligned recovery through a formative user study that identifies valued recovery dimensions and produces a natural language rubric. Our dataset of 1,150 pairwise judgments reveals context-dependent shifts in attribute importance, such as preferences for pragmatic, targeted strategies over comprehensive long-term approaches. We operationalize these learned insights in a reward model, re-ranking multiple candidate recovery plans generated by an agent scaffold at test time. To evaluate recovery capabilities systematically, we introduce BackBench, a benchmark of 50 computer-use tasks that test an agent's ability to recover from harmful states. Human evaluation shows our reward model scaffold yields higher-quality recovery trajectories than base agents and rubric-based scaffolds. Together, these contributions lay the foundation for a new class of agent safety methods -- ones that confront harm not only by preventing it, but by navigating its aftermath with alignment and intent.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.