NIST 发布了一份关于对抗性机器学习攻击和缓解措施的报告,并警告说,针对此类威胁没有灵丹妙药。
对抗性机器学习(AML)涉及提取有关机器学习系统的特征和行为的信息,并操纵输入以获得期望的结果。
NIST 发布了指南,记录了可用于针对人工智能系统的各种类型的攻击,并警告人工智能开发人员和用户,目前没有万无一失的方法来保护此类系统。该机构鼓励社区尝试寻找更好的防御措施。
该报告题为“对抗性机器学习:攻击和缓解的分类和术语”(NIST.AI.100-2),涵盖预测人工智能和生成人工智能。前者专注于创造新内容,而后者则利用历史数据来预测未来结果。
NIST 的报告是与东北大学和 Robust Intelligence Inc 的代表合作撰写的,重点关注四种主要类型的攻击:逃避、中毒、隐私和滥用。
在规避攻击(涉及更改输入以改变系统响应)的情况下,NIST 提供了对自动驾驶车辆的攻击作为示例,例如创建令人困惑的车道标记,可能导致汽车偏离道路。
在中毒攻击中,攻击者试图在人工智能训练期间引入损坏的数据。例如,通过将大量此类语言实例植入对话记录中,让聊天机器人使用不恰当的语言,以使人工智能相信这是常见的用语。
攻击者还可以尝试破坏合法的训练数据源,NIST 称之为滥用攻击。
在隐私攻击中,威胁行为者试图通过询问聊天机器人大量问题并使用提供的答案对模型进行逆向工程并发现弱点来获取有关人工智能或其训练数据的有价值的数据。
NIST 计算机科学家 Apostol Vassilev 表示:“尽管人工智能和机器学习取得了重大进展,但这些技术很容易受到攻击,从而导致严重故障并带来可怕的后果。” “保护人工智能算法的理论问题尚未得到解决。如果有人说不同的话,他们就是在卖万金油。”
SaaS 安全公司 AppOmni 首席人工智能工程师兼安全研究员 Joseph Thacker 对 NIST 的新报告发表了评论,称其为他见过的“最好的人工智能安全出版物”。
“最值得注意的是深度和覆盖面。这是我遇到过的关于人工智能系统对抗性攻击的最深入的内容。它涵盖了不同形式的即时注入,为以前没有明确标记的组件详细阐述并提供了术语。它甚至引用了丰富的现实世界示例,例如 DAN(Do Anything Now)越狱,以及一些令人惊叹的间接提示注入工作,”Thacker 说。
他补充说:“它包括涵盖潜在缓解措施的多个部分,但很明显这还不是一个已解决的问题。它还涵盖了开放与封闭模型的争论。最后有一个有用的术语表,我个人计划在编写或研究人工智能安全性时将其用作大型语言模型的额外“上下文”。它将确保法学硕士和我正在使用针对该主题领域的相同定义。”
EchoMark 是一家通过在文档和消息中嵌入不可见的法医水印来保护敏感信息的公司,其首席执行官兼创始人 Troy Batterberry 也评论道:“NIST 的对抗性 ML 报告是开发人员更好地了解 AI 攻击的有用工具。攻击的分类和建议的防御措施强调,没有一种针对威胁的万能解决方案;然而,了解对手的运作方式并做好准备是降低风险的关键。”
“作为一家将人工智能和合规服务作为业务一部分的公司,我们理解并鼓励这种对安全人工智能开发、确保强大且值得信赖的系统的承诺。了解并准备应对人工智能攻击不仅仅是一个技术问题,而且是在日益人工智能驱动的业务解决方案中保持信任和完整性所必需的战略要务。”Batterberry 补充道。
发表评论
您还未登录,请先登录。
登录