LLM 에이전트에서의 설득 전파
Persuasion Propagation in LLM Agents
현대 AI 에이전트는 코딩 및 웹 검색과 같은 자율 작업 수행과 대화형 상호작용을 점점 더 결합하고 있으며, 이는 장기적인 과업에 참여하는 에이전트가 사용자의 설득을 받을 때 어떤 일이 일어나는지에 대한 자연스러운 의문을 제기합니다. 우리는 신념 수준의 개입이 후속 작업 행동에 어떻게 영향을 미칠 수 있는지 연구하며, 이 현상을 '설득 전파(persuasion propagation)'라고 명명합니다. 우리는 작업 실행 중 또는 실행 이전에 적용된 설득을 구분하는 행동 중심 평가 프레임워크를 도입합니다. 웹 검색 및 코딩 작업 전반에서, 즉각적인(on-the-fly) 설득은 미약하고 일관성 없는 행동 효과를 유발하는 것으로 나타났습니다. 반면, 작업 시점에 신념 상태가 명시적으로 지정될 때, 신념이 주입된(belief-prefilled) 에이전트는 중립적인 에이전트에 비해 평균 26.9% 더 적은 검색을 수행하고 16.9% 더 적은 고유 출처를 방문합니다. 이러한 결과는 사전 상호작용에서의 설득조차도 에이전트의 행동에 영향을 미칠 수 있음을 시사하며, 에이전트 시스템에서의 행동 수준 평가에 대한 동기를 부여합니다.
Modern AI agents increasingly combine conversational interaction with autonomous task execution, such as coding and web research, raising a natural question: what happens when an agent engaged in long-horizon tasks is subjected to user persuasion? We study how belief-level intervention can influence downstream task behavior, a phenomenon we name \emph{persuasion propagation}. We introduce a behavior-centered evaluation framework that distinguishes between persuasion applied during or prior to task execution. Across web research and coding tasks, we find that on-the-fly persuasion induces weak and inconsistent behavioral effects. In contrast, when the belief state is explicitly specified at task time, belief-prefilled agents conduct on average 26.9\% fewer searches and visit 16.9\% fewer unique sources than neutral-prefilled agents. These results suggest that persuasion, even in prior interaction, can affect the agent's behavior, motivating behavior-level evaluation in agentic systems.
AI Analysis
Korean Summary
Key Innovations
- 작업과 무관한 설득이 에이전트의 후속 행동에 영향을 미치는 '설득 전파(Persuasion Propagation)' 개념 정립
- 최종 결과값(Output)이 아닌 실행 궤적(Trace)을 분석하는 '행동 중심 평가 프레임워크(Behavior-centered Evaluation Framework)' 제안
- 실시간 설득(On-the-fly)과 사전 신념 주입(Prefilled Belief)의 행동적 영향을 분리하는 실험 설계
- 코딩 및 웹 검색 행동을 정량화하기 위한 새로운 프로세스 지표(TRS, EVS, 탐색 너비/깊이 등) 개발
Learning & Inference Impact
이 연구는 모델의 학습보다는 추론(Inference) 단계에서 장기적인 컨텍스트가 행동에 미치는 영향을 다룹니다. 에이전트가 이전 상호작용에서 수용한 정보나 신념이 '잠재 상태(Latent State)'로 남아, 이후 전혀 다른 작업의 계획 수립, 정보 탐색 범위, 도구 사용 패턴과 같은 절차적 행동을 조건화(Conditioning)할 수 있음을 입증했습니다. 이는 단순히 유해한 출력을 막는 기존의 안전성 평가를 넘어, 에이전트가 결론에 도달하는 과정에서 발생하는 미묘한 편향(예: 탐색 범위 축소, 조기 종료)을 감지하고 모니터링해야 할 필요성을 제기합니다. 또한, 에이전트 시스템 설계 시 세션 간 컨텍스트 관리와 상태 초기화가 중요함을 시사합니다.
Technical Difficulty
Estimated implementation complexity based on methodology.