상호작용: 이론적 마음 모델을 활용한 믿음 조작을 위한 이중 스파이 방어 시스템 학습
Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind
대규모 언어 모델(LLM)이 대화형 시스템의 핵심 엔진이 되면서, 잠재적으로 적대적인 사용자와 안전하게 상호작용하기 위해, LLM이 대화 상대방의 의도와 상태에 대해 추론하는 능력(즉, 이론적 마음 모델, ToM)을 갖추는 것이 점점 더 중요해지고 있습니다. 본 연구에서는 새로운 개인 정보 보호 관련 ToM 문제를 제안합니다. 이 문제는 '믿음 조작을 위한 이론적 마음 모델(ToM-SB)'로, 방어자가 제한적인 사전 지식을 가진 공격자의 믿음을 조작하는 이중 스파이 역할을 수행해야 합니다. ToM-SB에서 성공하기 위해서는 방어자가 공격자와 상호작용하고 공격자에 대한 ToM을 형성하여, 공격자가 민감한 정보를 추출하는 데 성공했다고 믿게 만드는 것이 목표입니다. 실험 결과, Gemini3-Pro 및 GPT-5.4와 같은 최첨단 모델들이 ToM-SB에서 어려움을 겪는 것을 확인했습니다. 특히, 제한적인 공격자 사전 지식을 가진 어려운 시나리오에서, 공격자의 믿음에 대해 추론하도록 유도(ToM 프롬프트)하더라도 공격자를 속이는 데 실패하는 경우가 많았습니다. 이러한 격차를 해소하기 위해, 강화 학습을 사용하여 모델을 ToM-SB 데이터셋에 학습시켜 AI 이중 스파이 역할을 수행하도록 했습니다. 이 과정에서 공격자를 속이는 것과 ToM을 학습하는 것 모두에 대한 보상을 제공했습니다. 흥미롭게도, 공격자를 속이는 것과 ToM 사이에는 상호 강화되는 관계가 있음을 확인했습니다. 즉, 공격자를 속이는 성공에 대한 보상을 제공하면 ToM 능력이 향상되고, ToM 능력 향상을 위한 보상을 제공하면 공격자를 속이는 능력이 향상됩니다. 다양한 강점의 공격자 4개, 방어 방법 6가지, 그리고 동일 분포(in-distribution) 및 이질 분포(out-of-distribution, OOD) 환경에서 실험한 결과, ToM 능력과 공격자를 속이는 능력 간의 상관관계가 높다는 것을 확인했습니다. 이는 ToM-SB에서 성공의 핵심 동인이 믿음 모델링이라는 것을 시사합니다. ToM과 공격자를 속이는 것 모두에 대한 보상을 제공하는 AI 이중 스파이는 ToM 프롬프트를 사용하는 Gemini3-Pro 및 GPT-5.4보다 어려운 시나리오에서 더 높은 성능을 보였습니다. 또한, ToM-SB와 AI 이중 스파이 시스템이 더 강력한 공격자에게도 적용될 수 있으며, OOD 환경으로의 일반화 및 시스템 업그레이드가 가능하다는 것을 보여주었습니다.
As large language models (LLMs) become the engine behind conversational systems, their ability to reason about the intentions and states of their dialogue partners (i.e., form and use a theory-of-mind, or ToM) becomes increasingly critical for safe interaction with potentially adversarial partners. We propose a novel privacy-themed ToM challenge, ToM for Steering Beliefs (ToM-SB), in which a defender must act as a Double Agent to steer the beliefs of an attacker with partial prior knowledge within a shared universe. To succeed on ToM-SB, the defender must engage with and form a ToM of the attacker, with a goal of fooling the attacker into believing they have succeeded in extracting sensitive information. We find that strong frontier models like Gemini3-Pro and GPT-5.4 struggle on ToM-SB, often failing to fool attackers in hard scenarios with partial attacker prior knowledge, even when prompted to reason about the attacker's beliefs (ToM prompting). To close this gap, we train models on ToM-SB to act as AI Double Agents using reinforcement learning, testing both fooling and ToM rewards. Notably, we find a bidirectionally emergent relationship between ToM and attacker-fooling: rewarding fooling success alone improves ToM, and rewarding ToM alone improves fooling. Across four attackers with different strengths, six defender methods, and both in-distribution and out-of-distribution (OOD) evaluation, we find that gains in ToM and attacker-fooling are well-correlated, highlighting belief modeling as a key driver of success on ToM-SB. AI Double Agents that combine both ToM and fooling rewards yield the strongest fooling and ToM performance, outperforming Gemini3-Pro and GPT-5.4 with ToM prompting on hard scenarios. We also show that ToM-SB and AI Double Agents can be extended to stronger attackers, demonstrating generalization to OOD settings and the upgradability of our task.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.