近日,拉斯维加斯特朗普酒店外发生汽车爆炸事件,造成1死7伤。调查显示,嫌犯利用ChatGPT制造炸弹、查询信息,ChatGPT被认为是该案件的“帮凶”,这引发了公众对大模型内容安全的担忧。大模型生成内容的误导性、价值观偏离以及可能诱发的违法犯罪行为,不仅可能严重影响个体的心理健康与人身安全,还会给企业乃至行业的发展埋下沉重隐患。
近期,360集团推出DS大模型安全解决方案,覆盖模型训练、推理、运营等大模型落地应用全过程。其中,针对大模型内容安全问题,360智盾打造了全流程、多种类、多模态、场景化的内容安全体系,通过精准的风险检测、高效的内容拦截与替代机制,帮助企业确保生成内容的合法性、合规性与伦理可靠性,同时提升用户体验和模型输出的可信度。
内容安全是数智时代的信任基石
近年来,大模型已逐渐成为各行业数字化转型的核心推动力之一,从智能客服到内容创作,再到教育培训和医疗咨询,大模型的应用场景正在以前所未有的速度扩展。然而,伴随这一技术革命的,是愈发复杂的内容安全问题,主要体现在以下几个方面:
1 虚假信息
大模型可能会生成虚假信息或误导性内容,在传播过程中可能会引发社会恐慌、误导公众认知,甚至影响社会稳定。
2 歧视偏见
大模型在训练过程中可能会学到并放大数据中的偏见和歧视,生成含有种族、性别、宗教等歧视性的内容。
3 违法信息
大模型可能会生成包含仇恨言论、暴力倾向等内容,这些内容不仅违背社会伦理,还可能引发社会冲突和暴力事件。
4 模型滥用
大模型生成的内容可能会被用于非法目的,如网络欺诈、身份盗用、伪造身份等,进一步侵害用户的隐私权和财产权。
5 自动化攻击
大模型技术可能会被用于开发自动化攻击工具,如生成钓鱼邮件、自动破解密码等,增加网络安全威胁。
6 技术依赖问题
随着大模型技术的广泛应用,技术依赖程度逐渐增加。一旦出现问题或被恶意利用,可能会导致严重的社会后果。
7 失控风险
大模型生成内容可能超出设计者的预期,生成不可控的内容。这种失控风险可能会导致无法预料的社会问题。
因此,为确保技术创新能够行稳致远,企业必须将“大模型内容安全”视为产品研发与市场推广的前置要务,保障产品真正服务于用户、造福于社会。只有在安全与合规的基础上,AI技术才能成为推动业务增长的强大动力,而非不可控的“定时炸弹”。
“以模制模” 360智盾为大模型加上内容安全护栏
360智盾基于“以模制模”防护思路,结合大模型持续预训练、微调对齐、慢思考机制、RAG检索增强生成以及红蓝对抗等多种技术手段,打造了全流程、多种类、多模态、场景化的内容安全体系,实现对大模型内容安全的全面保护。
全流程内容安全保障
360智盾覆盖大模型应用的完整生命周期,针对输入内容,360智盾可以对进行风险检测,对内容做分级分类处理并给出分级处置建议;针对敏感问题,通过训练专项安全回复大模型,确保回复安全、向善,符合社会主义核心价值观;针对输出内容,360智盾可以进行风险检测并及时阻断。
多种类内容识别
360智盾支持100多类风险内容的识别过滤,涵盖超200种对抗内容防御机制,风险识别范围完全覆盖《生成式人工智能服务管理暂行办法》。
场景化策略定制
360智盾通过平台定制化场景风控策略,以满足教育、医疗、政务等不同场景的风控需求。
多模态风险内容识别
360智盾基于领先的多模态风险识别技术,支持文本、图片、音频、视频等多种类型的风险防护。
此前,360智盾在第五届中国人工智能大赛大模型安全攻防赛中斩获A级证书,充分验证了360大模型内容安全技术的领先地位。同时,360大模型安全解决方案已在政务、税务、医疗等垂直行业落地应用,守护千行百业智能化转型。
发表评论
您还未登录,请先登录。
登录