2601.14790v1 Jan 21, 2026 cs.AI

CI4A: 웹 자동화를 강화하는 에이전트를 위한 시맨틱 컴포넌트 인터페이스

CI4A: Semantic Component Interfaces for Agents Empowering Web Automation

Zhi Qiu
Zhi Qiu
Citations: 2
h-index: 1
Jiazheng Sun
Jiazheng Sun
Citations: 7
h-index: 1
Chenxiao Xia
Chenxiao Xia
Citations: 7
h-index: 2
Jun Zheng
Jun Zheng
Citations: 0
h-index: 0
Xing Peng
Xing Peng
Citations: 74
h-index: 4

대규모 언어 모델(LLM)은 고수준의 의미론적 계획 수립에는 놀라운 능력을 보여주지만, 세밀한 저수준 웹 컴포넌트 조작에는 여전히 한계가 있습니다. 이러한 한계를 해결하기 위해, 강화 학습과 같은 기법을 통해 모델의 그라운딩(grounding) 능력을 향상시키는 데 많은 연구가 집중되어 왔습니다. 그러나 본 논문에서는 에이전트가 인간 중심의 인터페이스에 적응하도록 강요하는 대신, 에이전트에 최적화된 상호작용 인터페이스를 구축할 것을 제안합니다. 본 논문은 UI 컴포넌트의 복잡한 상호작용 로직을 에이전트가 접근 가능한 통일된 도구 프리미티브(tool primitives) 집합으로 추상화하는 의미론적 캡슐화 메커니즘인 CI4A(Component Interface for Agent)를 소개합니다. 우리는 산업용 프론트엔드 프레임워크인 Ant Design 내에 CI4A를 구현하여, 널리 사용되는 23개 범주의 UI 컴포넌트를 포괄했습니다. 또한, 페이지 상태에 따라 동적으로 업데이트되는 행동 공간(action space)을 특징으로 하는 하이브리드 에이전트를 개발하여, 사용 가능한 CI4A 도구를 유연하게 호출할 수 있도록 했습니다. CI4A가 통합된 Ant Design을 활용하여 기존의 SoTA(State-of-the-Art) 방법론들을 평가하기 위해 WebArena 벤치마크를 리팩토링하고 업그레이드했습니다. 실험 결과, CI4A 기반 에이전트는 기존 접근 방식을 크게 능가하여 86.3%라는 새로운 SoTA 작업 성공률을 달성했으며, 실행 효율성 측면에서도 상당한 개선을 보였습니다.

Original Abstract

While Large Language Models demonstrate remarkable proficiency in high-level semantic planning, they remain limited in handling fine-grained, low-level web component manipulations. To address this limitation, extensive research has focused on enhancing model grounding capabilities through techniques such as Reinforcement Learning. However, rather than compelling agents to adapt to human-centric interfaces, we propose constructing interaction interfaces specifically optimized for agents. This paper introduces Component Interface for Agent (CI4A), a semantic encapsulation mechanism that abstracts the complex interaction logic of UI components into a set of unified tool primitives accessible to agents. We implemented CI4A within Ant Design, an industrial-grade front-end framework, covering 23 categories of commonly used UI components. Furthermore, we developed a hybrid agent featuring an action space that dynamically updates according to the page state, enabling flexible invocation of available CI4A tools. Leveraging the CI4A-integrated Ant Design, we refactored and upgraded the WebArena benchmark to evaluate existing SoTA methods. Experimental results demonstrate that the CI4A-based agent significantly outperforms existing approaches, achieving a new SoTA task success rate of 86.3%, alongside substantial improvements in execution efficiency.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!