웹 에이전트는 '계획-실행' 패러다임을 채택해야 한다
Web Agents Should Adopt the Plan-Then-Execute Paradigm
ReAct는 LLM 에이전트의 표준 아키텍처로 자리 잡았으며, 많은 기존 웹 에이전트가 이 패러다임을 따르고 있습니다. 우리는 웹 에이전트에 있어 이것이 잘못된 기본 설정이라고 주장합니다. 대신, 웹 에이전트는 '계획-실행' 방식을 기본으로 해야 합니다. 즉, 런타임 웹 콘텐츠를 관찰하기 전에 특정 작업에 대한 프로그램을 먼저 정의하고, 그 후 실행해야 합니다. 그 이유는 웹 콘텐츠가 다양한 주체의 입력으로 구성되기 때문입니다. 예를 들어, 전자 상거래 제품 페이지는 판매자의 상품 설명, 고객 리뷰 및 스폰서 광고를 결합할 수 있습니다. ReAct 방식에서는 이러한 모든 콘텐츠가 다음 작업을 결정할 때 모델로 흘러 들어가므로, 프롬프트 주입 공격을 통해 에이전트의 제어 흐름을 쉽게 조작할 수 있는 직접적인 경로가 생성됩니다. '계획-실행' 방식은 이러한 경계를 변경합니다. 신뢰할 수 없는 데이터는 미리 정의된 실행 그래프 내의 값이나 분기를 변경할 수 있지만, 사용자 작업 자체를 재정의하거나 모델이 런타임에 새로운 작업을 생성하도록 유도할 수는 없습니다. 우리는 인기 있는 웹 에이전트 벤치마크인 WebArena를 분석한 결과, 모든 작업이 '계획-실행' 방식과 호환되며, 80%의 작업은 런타임 LLM 서브루틴 없이 순수하게 프로그래밍 방식으로 계획하여 완료할 수 있다는 것을 발견했습니다. 우리는 웹에서 '계획-실행' 방식을 채택하는 데 있어 주요 장애 요소를 다음과 같이 파악했습니다. 이 방식이 제대로 작동하려면, 도구가 의미 있는 작업에 명확하게 연결되어야 하며, 실행 전에 효과가 명확하게 알려져 있어야 하므로, 에이전트는 충분한 정보를 바탕으로 계획을 수립할 수 있습니다. 하지만 웹은 이러한 인터페이스를 자연스럽게 제공하지 않습니다. 브라우저 도구인 클릭, 입력 및 스크롤과 같은 기능은 페이지에 따라 의미가 달라집니다. 이러한 수준에서 계획을 세우는 것은 단기적인 시각에 불과합니다. 에이전트는 현재 페이지에서만 작업을 볼 수 있으며, 후속 작업은 에이전트가 작업을 수행한 후에만 나타납니다. 이러한 격차를 해소하려면 웹사이트 상호 작용을 클릭 및 키 입력 대신 작업 수준의 작업으로 변환하는 타입화된 인터페이스가 필요합니다. 이는 모델링 문제가 아니라 인프라 문제입니다. 웹 작업은 기본적으로 반응성을 필요로 하지 않습니다. 대신, 타입화되고 완전하며 감사 가능한 웹사이트 API가 필요합니다.
ReAct has become the default architecture across LLM agents, and many existing web agents follow this paradigm. We argue that it is the wrong default for web agents. Instead, web agents should default to plan-then-execute: commit to a task-specific program before observing runtime web content, then execute it. The reason is that web content mixes inputs from many parties. An e-commerce product page may combine a seller's listing, customer reviews and sponsored advertisements. Under ReAct, all of this content flows into the model when deciding on the next action, creating a direct path for prompt injections to steer the agent's control flow. Plan-then-execute changes this boundary: untrusted data may influence values or branches inside a predefined execution graph, but it cannot redefine the user task or cause the model to synthesize new actions at runtime. We analyze WebArena, a popular web agent benchmark, and find that all tasks are compatible with plan-then-execute, while 80% can be completed with a purely programmatic plan, without any runtime LLM subroutine. We identify the main barrier to adopting plan-then-execute on the web: For it to work well, tools must map cleanly to semantic actions, with effects known before execution, so agents have enough information to plan. The web does not naturally expose that interface. Browser tools such as click, type, and scroll have page-dependent meanings. Planning at this layer is near-sighted: the agent can only see actions on the current page, and later actions appear only after it acts. Closing this gap requires typed interfaces that turn website interactions from clicks and keystrokes to task-level operations. This is an infrastructure problem, not a modeling problem. Web tasks do not need reactivity by default; they need typed, complete, auditable website APIs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.