HalluClear: GUI 에이전트의 환각 현상 진단, 평가 및 완화
HalluClear: Diagnosing, Evaluating and Mitigating Hallucinations in GUI Agents
GUI 에이전트 분야는 산업 규모의 학습을 통해 상당한 발전을 이루었지만, 근거 없는 환각 현상은 실제 환경 배포에서 심각한 오류를 유발하는 경우가 많습니다. 일반적인 VLM(Vision-Language Model) 분야와 달리, GUI 에이전트 분야에는 세밀한 진단, 신뢰성 있는 평가, 그리고 표적 완화를 위한 환각 현상에 특화된 도구 모음이 부족합니다. 이러한 격차를 해소하기 위해, 우리는 계산 비용이 많이 드는 확장 외에 GUI 에이전트의 환각 현상 완화를 위한 포괄적인 도구 모음인 HalluClear를 소개합니다. HalluClear는 다음과 같은 구성 요소로 이루어져 있습니다. (1) 경험적 오류 분석을 통해 도출된 GUI 특화 환각 현상 분류 체계; (2) 전문가가 주석을 단 벤치마킹과 앙상블 신뢰도 추정을 통해 VLM 평가의 신뢰성을 향상시키는, 교정된 3단계 평가 워크플로우; (3) 폐루프 구조적 추론을 기반으로 하는 완화 기법으로, 일반적인 에이전트와 GUI 전문 에이전트 모두에 대해 초기 설정이 가능한 경량 지속 학습을 지원합니다. 대표적인 에이전트와 공개 벤치마크를 대상으로 한 실험 결과, HalluClear 도구 모음 내의 9,000개 샘플만을 사용하여 추가 학습을 수행하면 환각 현상을 크게 줄일 수 있으며, 이는 GUI 자동화의 안정성을 향상시키는 효율적인 방법임을 보여줍니다.
While progress in GUI agents has been largely driven by industrial-scale training, ungrounded hallucinations often trigger cascading failures in real-world deployments.Unlike general VLM domains, the GUI agent field lacks a hallucination-focused suite for fine-grained diagnosis, reliable evaluation, and targeted mitigation.To bridge this gap, we introduce HalluClear, a comprehensive suite for hallucination mitigation in GUI agents as a complement to computation-intensive scaling. HalluClear comprises: (1) a GUI-specific hallucination taxonomy derived from empirical failure analysis; (2) a calibrated three-stage evaluation workflow which enhances VLM-as-a-judge reliability via expert-annotated benchmarking and ensemble credibility estimation; and (3) a mitigation scheme based on closed-loop structured reasoning, enabling lightweight continual post-training with cold-start initialization for both generalist and GUI-specialist agents. Experiments across representative agents and public benchmarks demonstrate that post-training on only 9K samples within our suite can significantly reduce hallucinations, thereby improving grounding and action fidelity, offering a compute-efficient pathway to robust GUI automation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.