来自 Anthropic 安全保障研究团队的研究人员开发出一种新方法,用于保护人工智能模型免受通用越狱攻击。
这种创新方法被称为 “宪法分类器”,在经过数千小时的人工红队测试和综合评估后,展现出卓越的抗性。
通用越狱攻击是指专门设计的输入内容,旨在绕过人工智能模型的安全防护机制,迫使模型生成有害回应。
SIEM 即服务
Anthropic 安全保障研究团队指出,所有这些攻击方式可能包括用冗长的提示信息对模型进行轰炸,或者修改输入风格,比如使用不常见的大写形式。
尽管经过了大量的安全训练,大语言模型依然容易受到此类攻击。
宪法分类器
宪法分类器是基于合成生成的数据进行训练的输入和输出分类器。它们能够以极低的误拒率和适中的计算开销,过滤掉大多数越狱攻击尝试。
该系统基于一部 “宪法” 运行,这是一份定义了允许和禁止内容类别的原则清单。例如,芥末的食谱是被允许的,而芥子气的配方则不被允许。
宪法分类器的训练与实施(来源:Anthropic)
其工作原理如下:
- 制定宪法:制定一部明确无害和有害类别的宪法。
- 合成数据生成:依据宪法,针对所有内容类别生成大量的合成提示和模型完成内容。通过将这些数据翻译成不同语言,并转化为模仿已知越狱攻击风格的形式,对数据进行扩充。
- 分类器训练:利用合成数据训练输入和输出分类器,以检测并阻止有害内容。
- 部署:将这些分类器作为防护措施,用以保护人工智能模型。
在一次漏洞赏金计划中,183 名活跃参与者花费了 3000 多个小时,试图对保护 Claude 3.5 Sonnet 的原型系统进行越狱攻击。
尽管设置了高额奖金,但并未发现通用越狱攻击方法。然而,该原型系统存在较高的误拒率和计算成本。
自动评估结果(来源:Anthropic)
使用 10000 条合成越狱提示,对 Claude 3.5 Sonnet 上的宪法分类器更新版本进行了测试。
越狱成功率从 86% 降至 4.4%,拒答率仅略有上升(0.38%),计算成本适度增加(23.7%)。
2025 年 2 月 3 日至 2 月 10 日,提供宪法分类器系统的在线演示,供红队进行测试。
此次演示聚焦于与化学武器相关的查询,并邀请用户尝试越狱攻击,为系统改进提供有价值的反馈。
虽然宪法分类器能提供强有力的保护,但并非万无一失。研究人员建议采用补充防御措施,并根据新出现的越狱技术对 “宪法” 进行调整。
这一突破有望在未来安全部署更强大的人工智能模型,降低与越狱攻击相关的风险,确保人工智能系统符合安全原则。
发表评论
您还未登录,请先登录。
登录