研究称AI智能体仍难抵御提示注入攻击

分类：快讯 | 时间：2026-06-13 08:40 | 关注

　　随着可自主上网、检索信息、购物甚至执行加密交易的 AI 智能体加快落地，一项最新研究显示，这类系统在提示注入攻击面前仍缺乏稳定防护能力。

　　研究由南洋理工大学、ST Engineering、IBM Research 和伊利诺伊大学厄巴纳-香槟分校团队完成。研究人员表示，在测试样本中，没有任何一款 AI 智能体能够持续抵御这类攻击。

　　直接攻击成功率超 79%

　　提示注入是指攻击者把隐藏指令嵌入网页、文本或其他外部内容中，诱导 AI 智能体偏离用户原本目标，转而执行攻击者设定的动作。

　　为更接近真实使用环境，研究团队开发了名为 StakeBench 的测试基准，用来评估 AI 智能体在在线任务中的受攻击表现。测试覆盖 NanoBrowser 和 BrowserUse 两类代理框架，并结合 GPT-5 与 Gemini 2.5-Flash 进行 3,168 次攻击模拟。

　　测试框架包括 NanoBrowser 和 BrowserUse 测试模型包括 GPT-5 与 Gemini 2.5-Flash 直接攻击成功率在各配置中均超 79% 网页隐藏指令仍可生效

　　研究结果显示，嵌入网页内容的间接攻击成功率达到 41.67% 至 68.16%。这类攻击更接近现实部署场景，因为攻击者无需直接接触用户输入，只需把指令藏在网页内容中，就可能影响智能体后续决策。

　　团队重点观察了三项因素：注入目标与用户任务的语义距离、周围环境线索是否一致，以及智能体在执行流程的哪个阶段首次接触到恶意内容。研究认为，这些因素都会影响攻击是否得手。

　　科技公司此前已多次预警

　　这项研究发布前，相关风险已多次被大型科技公司提及。微软研究人员今年 2 月曾警告，AI 摘要链接中的隐藏指令可能影响聊天机器人行为。谷歌在 4 月也记录了藏在网页中的提示注入案例，相关攻击试图诱导 AI 智能体泄露凭证或发起付款。

　　微软随后还披露，Anthropic 的 Claude Code GitHub Action 存在提示注入缺陷，可能导致用户凭证暴露。

　　研究还提到一种被称为“隐蔽寄生”的情况，即智能体表面上完成了用户任务，但同时也在暗中推进攻击者目标。比如在商品推荐场景中，系统可能看似正常给出建议，却悄悄把用户引向特定商品。

温馨提示：内容仅供参考