随着可自主上网、检索信息、购物甚至执行加密交易的 AI 智能体加快落地,一项最新研究显示,这类系统在提示注入攻击面前仍缺乏稳定防护能力。
研究由南洋理工大学、ST Engineering、IBM Research 和伊利诺伊大学厄巴纳-香槟分校团队完成。研究人员表示,在测试样本中,没有任何一款 AI 智能体能够持续抵御这类攻击。
直接攻击成功率超 79%
提示注入是指攻击者把隐藏指令嵌入网页、文本或其他外部内容中,诱导 AI 智能体偏离用户原本目标,转而执行攻击者设定的动作。
为更接近真实使用环境,研究团队开发了名为 StakeBench 的测试基准,用来评估 AI 智能体在在线任务中的受攻击表现。测试覆盖 NanoBrowser 和 BrowserUse 两类代理框架,并结合 GPT-5 与 Gemini 2.5-Flash 进行 3,168 次攻击模拟。
测试框架包括 NanoBrowser 和 BrowserUse 测试模型包括 GPT-5 与 Gemini 2.5-Flash 直接攻击成功率在各配置中均超 79% 网页隐藏指令仍可生效
研究结果显示,嵌入网页内容的间接攻击成功率达到 41.67% 至 68.16%。这类攻击更接近现实部署场景,因为攻击者无需直接接触用户输入,只需把指令藏在网页内容中,就可能影响智能体后续决策。
团队重点观察了三项因素:注入目标与用户任务的语义距离、周围环境线索是否一致,以及智能体在执行流程的哪个阶段首次接触到恶意内容。研究认为,这些因素都会影响攻击是否得手。
科技公司此前已多次预警
这项研究发布前,相关风险已多次被大型科技公司提及。微软研究人员今年 2 月曾警告,AI 摘要链接中的隐藏指令可能影响聊天机器人行为。谷歌在 4 月也记录了藏在网页中的提示注入案例,相关攻击试图诱导 AI 智能体泄露凭证或发起付款。
微软随后还披露,Anthropic 的 Claude Code GitHub Action 存在提示注入缺陷,可能导致用户凭证暴露。
研究还提到一种被称为“隐蔽寄生”的情况,即智能体表面上完成了用户任务,但同时也在暗中推进攻击者目标。比如在商品推荐场景中,系统可能看似正常给出建议,却悄悄把用户引向特定商品。