黑客利用提示注射来篡改Gemini AI的长期记忆-安全KER

一场针对谷歌 Gemini Advanced 聊天机器人的复杂攻击。此次攻击利用了间接提示注入和延迟工具调用的手段，来破坏人工智能的长期记忆，使攻击者能够植入在不同用户会话中持续存在的虚假信息。

这一漏洞引发了人们对生成式人工智能系统安全性的严重担忧，尤其是那些旨在长期保留用户特定数据的系统。

提示注入和延迟工具调用

提示注入是一种网络攻击方式，恶意指令被嵌入到人工智能处理的看似无害的输入内容中，比如文档或电子邮件。

间接提示注入是一种更为隐蔽的变种，当这些指令隐藏在外部内容中时就会发生。人工智能会将这些嵌入的指令解释为合法的用户提示，从而导致意外的操作。

根据约翰・雷贝格（Johann Rehberger）的说法，这次攻击基于一种名为延迟工具调用的技术。攻击不是立即执行恶意指令，而是让人工智能在特定用户操作之后才采取行动，比如用户用 “是” 或 “否” 这样的触发词进行回复时。

这种方法利用了人工智能的上下文感知能力以及它优先考虑所感知到的用户意图的倾向，从而绕过了许多现有的防护措施。

此次攻击的目标是谷歌的高端聊天机器人 Gemini Advanced，它具备长期记忆功能。

1.通过不可信内容进行注入：上传一份恶意文档，由 Gemini 进行总结。文档中隐藏着旨在操纵总结过程的隐蔽指令。

2.基于触发条件的激活：总结内容中包含一个隐藏的请求，该请求将记忆更新与特定的用户回复挂钩。

3.记忆破坏：如果用户在不知情的情况下用触发词进行回复，Gemini 就会执行隐藏指令，将虚假信息（比如编造的个人详细信息）保存到其长期记忆中。

例如，雷贝格展示了这种策略如何能诱使 Gemini “记住” 用户 102 岁、相信地球是平的这一观点，并且生活在一个类似于《黑客帝国》的模拟反乌托邦世界中。这些错误记忆会在不同会话中持续存在，并影响后续的交互。

长期记忆操纵的影响

像 Gemini 这样的人工智能系统中的长期记忆旨在通过在不同会话中调用相关细节来提升用户体验。然而，当这一功能被利用时，就会成为一把双刃剑。被破坏的记忆可能会导致：

1.错误信息传播：人工智能可能会根据虚假数据给出不准确的回复。

2.用户操纵：攻击者可以让人工智能在特定情况下按照恶意指令行事。

3.数据窃取：敏感信息可能会通过创造性的窃取渠道被提取，比如将数据嵌入指向攻击者控制服务器的 Markdown 链接中。

尽管谷歌已经承认了这个问题，但它淡化了其影响和危险性。根据他们的评估，这种攻击需要通过网络钓鱼或诱骗用户与恶意内容进行交互来实现，而这种情况被认为不太可能大规模发生。

此外，当新的长期记忆被存储时，Gemini 会通知用户，这为警惕性高的用户提供了检测和删除未经授权条目的机会。

尽管有这些缓解措施，专家们认为，只解决表面症状而不解决根本原因会使系统仍然容易受到攻击。

雷贝格指出，虽然谷歌已经限制了特定功能（比如 Markdown 渲染）以防止数据窃取，但生成式人工智能的根本问题尚未得到解决。

这一事件凸显了在保护大型语言模型（LLM）免受提示注入攻击方面存在的持续挑战。

与传统软件漏洞不同，传统软件漏洞通常可以被彻底修复，而大型语言模型由于依赖自然语言处理，本质上很难区分合法输入和恶意提示。

黑客利用提示注射来篡改Gemini AI的长期记忆