DeepMind研究揭示黑客操控AI代理的六种方式

TLDR

  • DeepMind 标记了六种 AI 代理陷阱,揭示了基于网页的操纵风险
  • 隐藏的 HTML 指令可以在网上悄悄劫持 AI 代理行动
  • 说服性语言把 AI 代理骗去执行有害任务
  • 被投毒的数据源会破坏 AI 代理的记忆与输出
  • 自主 AI 代理在互联系统中面临的风险正在上升

谷歌 DeepMind 的研究人员已识别出六种可在网上操纵 AI 代理的方法。这项研究展示了 AI 代理如何通过网页内容、隐藏指令和被投毒的数据源受到影响。因此,随着公司在数字环境中把 AI 代理用于现实任务,研究结果突出了日益增长的风险。

内容与语义操纵揭示核心弱点

研究人员将“内容注入”陷阱认定为 AI 代理在网页交互期间面临的直接威胁。被放置在 HTML 或元数据中的隐藏指令可以在不被人类发现的情况下控制行动。结果是,AI 代理可能会执行嵌入在看不见页面元素中的命令。

语义操纵依赖的是说服性语言,而不是隐藏代码,来影响 AI 代理。攻击者会以权威语气和结构化叙事设计页面,从而绕过防护措施。AI 代理可能会把有害指令误解为有效任务。

这些方法利用了 AI 代理在决策过程中对在线信息的处理方式与优先级排序。研究表明,结构化提示可以在细微层面重塑推理路径。攻击者能够在不触发系统防御的情况下,引导 AI 代理走向非预期行动。

记忆与行为攻击扩大风险面

研究人员还发现,攻击者可以操纵 AI 代理用于信息检索的记忆系统。通过向可信来源注入虚假数据,攻击者会影响长期输出与回应。结果是,AI 代理可能会在一段时间后把捏造的信息当作已验证的知识。

行为控制攻击会直接针对 AI 代理在常规浏览期间执行的行动。嵌入的“越狱”指令可以覆盖限制条件,并触发非预期操作。具备广泛权限的 AI 代理可能会访问并向外部传输敏感数据。

该研究强调,随着 AI 代理获得更高的自主性并获得系统访问能力,这些风险会增加。攻击者可以利用常规工作流,在正常任务中插入恶意命令。当与外部工具和 API 集成时,AI 代理面临更高的暴露风险。



系统性与人因因素放大威胁影响

研究人员警告,系统性陷阱可能会在互联系统中同时影响多个 AI 代理。协调一致的操纵可能会触发类似由算法驱动的市场扰动所引发的级联故障。结果是,在共享环境中运行的 AI 代理可能会在规模上放大风险。

在人类审核者仍然会在 AI 代理的工作流与审批流程中保持脆弱性。攻击者可以编写看起来可信、并绕过监督检查的输出。AI 代理可能会在收到人类批准后执行有害行动。

该研究把这些发现放在一个更广泛的背景中,即不同行业中 AI 部署正在增加。AI 代理现在会通过自动化系统处理诸如沟通、采购与协调等任务。确保运行环境的安全性,变得同样关键,甚至与改进模型设计一样重要。

研究人员建议通过对抗训练、输入过滤和监控系统来降低暴露。研究指出,防御仍然支离破碎,且缺乏行业范围内的标准。随着 AI 代理持续扩大其角色,协同保障的需求变得更加迫切。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论