끊임없는 감독 없이 에이전트 시스템을 관리하기: 과제와 기회
Overseeing Agents Without Constant Oversight: Challenges and Opportunities
인간의 감독을 가능하게 하기 위해, 에이전트 AI 시스템은 종종 추론 과정 및 수행 단계를 기록합니다. 기록의 상세 수준을 정보 제공적이지만 압도적이지 않도록 설계하는 것은 여전히 중요한 과제입니다. 컴퓨터 사용자 에이전트에 대한 세 가지 사용자 연구를 통해, 기본적인 동작 기록의 유용성을 검증하고, 세 가지 대안을 디자인 프로브를 통해 탐색하며, 새로운 인터페이스가 질의 응답 작업에서 오류 발견에 미치는 영향을 테스트했습니다. 예상대로, 현재의 방식은 번거롭고 효과를 제한하는 것으로 나타났습니다. 반면, 제안된 디자인은 참가자들이 오류를 찾는 데 소요되는 시간을 줄였습니다. 그러나 참가자들이 의사 결정에 대한 자신감이 높아졌다고 보고했지만, 최종 정확도는 유의미하게 향상되지 않았습니다. 본 연구는 에이전트 시스템의 인간 검증에 대한 과제를 제시하며, 여기에는 내재된 가정 관리, 사용자의 주관적이고 변화하는 정확성 기준, 그리고 에이전트의 프로세스 전달의 한계점이지만 중요한 역할 등이 포함됩니다.
To enable human oversight, agentic AI systems often provide a trace of reasoning and action steps. Designing traces to have an informative, but not overwhelming, level of detail remains a critical challenge. In three user studies on a Computer User Agent, we investigate the utility of basic action traces for verification, explore three alternatives via design probes, and test a novel interface's impact on error finding in question-answering tasks. As expected, we find that current practices are cumbersome, limiting their efficacy. Conversely, our proposed design reduced the time participants spent finding errors. However, although participants reported higher levels of confidence in their decisions, their final accuracy was not meaningfully improved. To this end, our study surfaces challenges for human verification of agentic systems, including managing built-in assumptions, users' subjective and changing correctness criteria, and the shortcomings, yet importance, of communicating the agent's process.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.