안전한가, 아니면 단순히 불가능한 것인가? 전화 사용 에이전트의 안전성 평가에 대한 재고
Safe, or Simply Incapable? Rethinking Safety Evaluation for Phone-Use Agents
전화 사용 에이전트가 위험을 회피할 때, 이것이 실제로 안전성을 나타내는 것인가, 아니면 단순히 행동할 수 없는 것인가? 기존의 평가 방법은 종종 이를 구별할 수 없습니다. 유해한 결과가 회피되는 이유는 에이전트가 위험을 인지하고 안전한 행동을 선택했기 때문일 수도 있고, 반대로 화면을 이해하지 못하거나 관련된 행동을 전혀 수행하지 못했기 때문일 수도 있습니다. 이러한 경우는 서로 다른 원인을 가지고 있으며, 서로 다른 해결책이 필요하지만, 현재의 벤치마크는 종종 이러한 경우들을 '작업 성공', '거부', 또는 '최종적인 유해 결과'라는 범주로 묶습니다. 우리는 실제 전화 상호 작용에서 추출한 700개의 안전에 중요한 순간들을 포함하는 벤치마크인 PhoneSafety를 통해 이 문제를 해결하고자 합니다. 각 데이터는 위험한 순간에 다음 결정을 격리하고 간단한 질문을 던집니다. 모델이 안전한 행동을 취하는지, 안전하지 않은 행동을 취하는지, 아니면 유용한 행동을 전혀 수행하지 않는지 여부입니다. 우리는 이 프레임워크를 사용하여 8개의 대표적인 전화 사용 에이전트를 평가했습니다. 우리의 결과는 두 가지 주요 패턴을 보여줍니다. 첫째, 일반적인 전화 사용 능력은 위험한 순간에 더 안전한 선택을 보장하지 않습니다. 일반적인 앱 작업에서 더 높은 성능을 보이는 모델이 항상 더 안전하게 행동하는 것은 아닙니다. 둘째, 아무런 유용한 행동도 수행하지 못하는 경우는 안전 신호라기보다는 능력 신호와 유사합니다. 이는 시각적으로나 작동적으로 더 복잡한 환경에서 집중적으로 나타나며, 평가 프로토콜이 변경되어도 안정적으로 유지됩니다. 모델 전반에 걸쳐, 실패는 두 가지 반복적인 패턴으로 나뉩니다. 모델이 행동할 수 있지만 잘못된 선택을 하는 환경에서의 안전하지 않은 선택과, 시각적으로나 작동적으로 더 복잡한 화면에서 행동할 수 없는 경우입니다. 전반적으로, 무해한 결과는 안전성의 증거로 간주하기에는 충분하지 않습니다. 전화 사용 에이전트를 평가하려면 안전하지 않은 판단과 행동 불능을 분리해야 합니다.
When a phone-use agent avoids harm, does that show safety, or simply inability to act? Existing evaluations often cannot tell. A harmful outcome may be avoided because the agent recognized the risk and chose the safe action, or because it failed to understand the screen or execute any relevant action at all. These cases have different causes and call for different fixes, yet current benchmarks often merge them under task success, refusal, or final harmful outcome. We address this problem with PhoneSafety, a benchmark of 700 safety-critical moments drawn from real phone interactions across more than 130 apps. Each instance isolates the next decision at a risky moment and asks a simple question: does the model take the safe action, take the unsafe action, or fail to do anything useful? We evaluate eight representative phone-use agents under this framework. Our results reveal two main patterns. First, stronger general phone-use ability does not reliably imply safer choices at risky moments. Models that perform better on ordinary app tasks are not always the ones that behave more safely when the next action matters. Second, failures to do anything useful behave like a capability signal rather than a safety signal: they are concentrated in more visually and operationally demanding settings and remain stable when the evaluation protocol changes. Across models, failures split into two recurring patterns: unsafe choices in settings where the model can act but chooses wrongly, and inability to act in more visually and operationally demanding screens. Overall, a harmless outcome is not enough to count as evidence of safety. Evaluating phone-use agents requires separating unsafe judgment from inability to act.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.