大模型成恐袭“帮凶”!360全流程把控AI内容安全

阅读量21981

发布时间 : 2025-02-26 15:27:24

近日,拉斯维加斯特朗普酒店外发生汽车爆炸事件,造成1死7伤。调查显示,嫌犯利用ChatGPT制造炸弹、查询信息,ChatGPT被认为是该案件的“帮凶”,这引发了公众对大模型内容安全的担忧。大模型生成内容的误导性、价值观偏离以及可能诱发的违法犯罪行为,不仅可能严重影响个体的心理健康与人身安全,还会给企业乃至行业的发展埋下沉重隐患。

近期,360集团推出DS大模型安全解决方案,覆盖模型训练、推理、运营等大模型落地应用全过程。其中,针对大模型内容安全问题,360智盾打造了全流程、多种类、多模态、场景化的内容安全体系,通过精准的风险检测、高效的内容拦截与替代机制,帮助企业确保生成内容的合法性、合规性与伦理可靠性,同时提升用户体验和模型输出的可信度。

内容安全是数智时代的信任基石

近年来,大模型已逐渐成为各行业数字化转型的核心推动力之一,从智能客服到内容创作,再到教育培训和医疗咨询,大模型的应用场景正在以前所未有的速度扩展。然而,伴随这一技术革命的,是愈发复杂的内容安全问题,主要体现在以下几个方面:

1 虚假信息

大模型可能会生成虚假信息或误导性内容,在传播过程中可能会引发社会恐慌、误导公众认知,甚至影响社会稳定。

2 歧视偏见

大模型在训练过程中可能会学到并放大数据中的偏见和歧视,生成含有种族、性别、宗教等歧视性的内容。

3 违法信息

大模型可能会生成包含仇恨言论、暴力倾向等内容,这些内容不仅违背社会伦理,还可能引发社会冲突和暴力事件。

4 模型滥用

大模型生成的内容可能会被用于非法目的,如网络欺诈、身份盗用、伪造身份等,进一步侵害用户的隐私权和财产权。

5 自动化攻击

大模型技术可能会被用于开发自动化攻击工具,如生成钓鱼邮件、自动破解密码等,增加网络安全威胁。

6 技术依赖问题

随着大模型技术的广泛应用,技术依赖程度逐渐增加。一旦出现问题或被恶意利用,可能会导致严重的社会后果。

7 失控风险

大模型生成内容可能超出设计者的预期,生成不可控的内容。这种失控风险可能会导致无法预料的社会问题。

因此,为确保技术创新能够行稳致远,企业必须将“大模型内容安全”视为产品研发与市场推广的前置要务,保障产品真正服务于用户、造福于社会。只有在安全与合规的基础上,AI技术才能成为推动业务增长的强大动力,而非不可控的“定时炸弹”。

“以模制模” 360智盾为大模型加上内容安全护栏

360智盾基于“以模制模”防护思路,结合大模型持续预训练、微调对齐、慢思考机制、RAG检索增强生成以及红蓝对抗等多种技术手段,打造了全流程、多种类、多模态、场景化的内容安全体系,实现对大模型内容安全的全面保护。

全流程内容安全保障

360智盾覆盖大模型应用的完整生命周期,针对输入内容,360智盾可以对进行风险检测,对内容做分级分类处理并给出分级处置建议;针对敏感问题,通过训练专项安全回复大模型,确保回复安全、向善,符合社会主义核心价值观;针对输出内容,360智盾可以进行风险检测并及时阻断。

多种类内容识别

360智盾支持100多类风险内容的识别过滤,涵盖超200种对抗内容防御机制,风险识别范围完全覆盖《生成式人工智能服务管理暂行办法》。

场景化策略定制

360智盾通过平台定制化场景风控策略,以满足教育、医疗、政务等不同场景的风控需求。

多模态风险内容识别

360智盾基于领先的多模态风险识别技术,支持文本、图片、音频、视频等多种类型的风险防护。

此前,360智盾在第五届中国人工智能大赛大模型安全攻防赛中斩获A级证书,充分验证了360大模型内容安全技术的领先地位。同时,360大模型安全解决方案已在政务、税务、医疗等垂直行业落地应用,守护千行百业智能化转型。

本文由刘淑敏原创发布

转载,请参考转载声明,注明出处: https://www.anquanke.com/post/id/304788

安全KER - 有思想的安全新媒体

分享到:微信
+10赞
收藏
刘淑敏
分享到:微信

发表评论

Copyright © 北京奇虎科技有限公司 三六零数字安全科技集团有限公司 安全KER All Rights Reserved 京ICP备08010314号-66