2602.16844v1 Feb 18, 2026 cs.HC

끊임없는 감독 없이 에이전트 시스템을 관리하기: 과제와 기회

Overseeing Agents Without Constant Oversight: Challenges and Opportunities

Madeleine Grunde-McLaughlin
Madeleine Grunde-McLaughlin
Citations: 135
h-index: 4
Hussein Mozannar
Hussein Mozannar
Microsoft
Citations: 1,700
h-index: 18
Maya Murad
Maya Murad
Citations: 46
h-index: 3
Jingya Chen
Jingya Chen
Citations: 377
h-index: 10
Saleema Amershi
Saleema Amershi
Citations: 8,722
h-index: 35
Adam Fourney
Adam Fourney
Citations: 449
h-index: 9

인간의 감독을 가능하게 하기 위해, 에이전트 AI 시스템은 종종 추론 과정 및 수행 단계를 기록합니다. 기록의 상세 수준을 정보 제공적이지만 압도적이지 않도록 설계하는 것은 여전히 중요한 과제입니다. 컴퓨터 사용자 에이전트에 대한 세 가지 사용자 연구를 통해, 기본적인 동작 기록의 유용성을 검증하고, 세 가지 대안을 디자인 프로브를 통해 탐색하며, 새로운 인터페이스가 질의 응답 작업에서 오류 발견에 미치는 영향을 테스트했습니다. 예상대로, 현재의 방식은 번거롭고 효과를 제한하는 것으로 나타났습니다. 반면, 제안된 디자인은 참가자들이 오류를 찾는 데 소요되는 시간을 줄였습니다. 그러나 참가자들이 의사 결정에 대한 자신감이 높아졌다고 보고했지만, 최종 정확도는 유의미하게 향상되지 않았습니다. 본 연구는 에이전트 시스템의 인간 검증에 대한 과제를 제시하며, 여기에는 내재된 가정 관리, 사용자의 주관적이고 변화하는 정확성 기준, 그리고 에이전트의 프로세스 전달의 한계점이지만 중요한 역할 등이 포함됩니다.

Original Abstract

To enable human oversight, agentic AI systems often provide a trace of reasoning and action steps. Designing traces to have an informative, but not overwhelming, level of detail remains a critical challenge. In three user studies on a Computer User Agent, we investigate the utility of basic action traces for verification, explore three alternatives via design probes, and test a novel interface's impact on error finding in question-answering tasks. As expected, we find that current practices are cumbersome, limiting their efficacy. Conversely, our proposed design reduced the time participants spent finding errors. However, although participants reported higher levels of confidence in their decisions, their final accuracy was not meaningfully improved. To this end, our study surfaces challenges for human verification of agentic systems, including managing built-in assumptions, users' subjective and changing correctness criteria, and the shortcomings, yet importance, of communicating the agent's process.

0 Citations
0 Influential
17.5 Altmetric
87.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!