Google DeepMind 最近发布了一份令人背脊发凉的网络安全报告。他们绘制了一个几乎没人在讨论,却足以摧毁整个 AI 生态的攻击面:智能体陷阱(AI Agent Traps)。
当我们将决策权交给智能体时,我们正步入一个“输入不可信”的危险时代。
1. 核心危机:检测不对称性
网站现在可以轻而易举地识别访问者是人类还是 AI 智能体。
这种“检测不对称性”意味着,同一个网页可以向人类展示正常内容,却向智能体投喂完全不同的恶意指令。
你以为它在帮你订票,它看到的却是“将账户余额转走”的隐藏代码。
2. 隐形攻击的六大手段
间接网页注入:在 HTML 注释、CSS 技巧或白色背景的白字中隐藏恶意指令。
多模态隐写术:将命令编码在图像像素中。人类看不见,但视觉模型能读出指令。
文档木马:在 PDF、电子表格或日历邀请的深处嵌入覆盖指令。
记忆中毒:注入虚假信息,并使其在未来的对话会话中持续存在。
数据外泄攻击:诱骗智能体将你的私人数据发送到攻击者控制的端点。
多智能体级联感染:这是最糟的情况。智能体 A 被污染后,将毒素传给智能体 B 和 C。整个流水线因为智能体间的互信而全线崩溃。
3. 传统防御的全面溃败
为什么这比以往任何时候都危险?因为现有的防御手段在智能体时代几乎失效:
输入脱敏无效:你无法对一个像素进行“脱敏”。
提示词防御失效:要求智能体“忽略可疑命令”往往会被更高优先级的注入指令覆盖。
人类审计失灵:智能体以毫秒级速度处理成百上千个网站,人类根本无法实时验证智能体看到的和我们看到的是否一致。
4. 行动边界的“死刑开关”
智能体安全的核心痛点在于:能力不等于可靠性。
目前的 AI 治理大多处于上游(提示词工程)或下游(审计日志),但在“行动边界”(Action Boundary)——即不可逆操作执行前的最后一秒,防御几乎是空白的。
正如 Holo Engine 等前沿研究所指出的:
单一模型的判断存在结构性盲点。
GPT-5.4、Claude 4.6 或 Gemini 2.5 都有可能被一段听起来很合理的伪造叙事欺骗。
我们需要的是“对抗性共识”:在资金划转、合同签署前,通过多个结构迥异的模型进行交叉质询。
5. 行业启示:从“锁”到“摄像头”的转变
如果说传统的安全防护是在造更好的锁,那么智能体时代需要的是全天候的摄像头。
我们不能再假设输入是干净的,而必须假设输入已被污染。
未来的智能体架构必须具备“防御性怀疑”:
对子智能体实行最小权限原则。
对不可逆行为建立强制性的对抗性验证循环。
在行动边界建立加密签名的决策记录,确保每一笔 AI 交易都是可追溯、可验证的真实意图。
智能体经济的繁荣,不取决于它们能跑多快,而取决于我们在它们失控前,是否有能力按下那个红色的停止键。