知道创宇发布《海外大模型应对中国核心价值观能力评测报告》（文末获取完整报告）-安全KER

在全球化和人工智能技术的双重驱动下，海外大模型在全球范围内迅速崛起，其强大的数据处理与学习能力为各行各业带来了前所未有的变革机遇。特别是在中国市场，众多应用开发者纷纷将目光投向了这些海外开源大模型，希望通过二次训练快速构建出符合本土需求的智能服务，以满足日益增长的用户需求。

然而，随着海外大模型在中国市场的广泛应用，一个不容忽视的问题逐渐浮出水面：这些模型在应对中国核心价值观方面的能力究竟如何？它们能否在提供高效智能服务的同时，确保内容的安全、合法与正向，以符合我国社会的道德标准、法律法规以及主流价值导向？

不难发现，不管是To网民还是To应用厂商，海外大模型在我国应用的内容风险场景，都面临价值观冲突、文化误解、伦理道德风险、内容偏见与歧视等多个维度的合规挑战。

正是基于这样的背景与考虑，知道创宇发布《海外大模型应对中国核心价值观能力评测报告》。旨在通过这份报告，深入剖析海外大模型在中国市场应用时可能遇到的内容风险场景，评估其在应对中国核心价值观方面的实际能力，提升整个行业对海外大模型应用风险的认识与防范能力，促进我国人工智能技术的健康发展与合规应用。

海外大模型厂商信息

本次评测中的模型选取了海外有代表性的12个WEB开放大模型，评测截至5月24日的版本。

海外大模型厂商信海外大模型厂商信息（依据发布时间排序）

一、评测结果

1. 评测结果模型象限

在截至2024年5月24日的评测中，知道创宇对海外大模型在我国应用的内容合规能力进行了全面考察，涵盖了五个关键维度：「煽动颠覆国家政权、推翻社会主义制度」、「煽动分裂国家、破坏国家统一和社会稳定」、「危害国家安全和利益、损害国家形象」、「宣扬恐怖主义、极端主义」、「宣扬民族仇恨」。此评测旨在确保所有海外大模型在我国的应用均符合内容健康、合法、正向的标准。

雷达象限图展示的结果反映了各海外大模型在多个关键指标上虽展现出相近的水平，但在中国社会主义核心价值观的衡量下，表现均不够突出。后期如无优化，在国内上线和使用，存在极大的合规性和安全性风险。

因此，对于任何计划在国内市场部署海外大模型的机构或企业而言，必须高度重视内容合规性问题，并采取相应的评测办法和优化措施以符合我国的法律法规和社会规范。

2. 核心价值观综合评测结果（风险案例详见完整报告）

在满分100分的情况下，大模型的得分如未触及满分标准，即代表有优化空间。而本次评测所有海外大模型在核心价值观综合评分上的得分普遍偏低，最高分仅为55.4分，远低于60分的及格线。这表明所有被评测的模型在内容合规能力方面都存在显著的不足。

表现相对较好的大模型（前三）都是2024年4月中下旬集中发布的版本，代表了AI领域在此期间达到一个技术高峰和创新时期。

表现相对较差的大模型（后二）为加拿大和法国，并不代表这两个国家的AI技术整体落后。地域因素可能只是一个偶然现象，可能由于多种原因（如数据质量、模型设计、训练策略等）导致这些模型表现稍显逊色。

A. 核心价值观之「煽动颠覆国家政权、推翻社会主义制度」结果

在「煽动颠覆国家政权、推翻社会主义制度」这一极为关键的合规指标上，所有海外大模型的表现最差，分值均不超过50分，低于整体平均分的10%。这凸显了大模型在此类敏感内容识别与合规处理上的严重不足，亟需引起海外大模型厂商的高度重视与深刻反思，以确保技术发展与我国法律法规、社会道德标准保持高度一致。

B. 核心价值观之「煽动分裂国家、破坏国家统一和社会稳定」结果

尽管在「煽动分裂国家、破坏国家统一和社会稳定」这一关键合规指标上，尽管所有海外大模型的得分相较于其他标签有所提高，大多跨过了50分的门槛，甚至有一家勉强达到60分以上，但这样的表现依然不足以证明大模型在处理这类敏感、重要内容时的有效性和可靠性。相反，更多地凸显出大模型在合规挑战面前的脆弱性和不足，特别是在确保内容健康、合法、正向以及维护国家安全、社会稳定方面的能力上，仍存在显著的缺陷和提升空间。

这一结果无疑为海外大模型的开发者敲响了警钟，提醒他们在追求技术创新与商业利益的同时，必须更加重视涉及国家安全、社会稳定等核心领域的内容处理上的合规性提升。

C. 核心价值观之「危害国家安全和利益、损害国家形象」结果

在「危害国家安全和利益、损害国家形象」这一至关重要的合规指标上，大模型的表现依然显得不尽如人意，这深刻揭示了当前人工智能技术在处理敏感、高风险内容时的局限性与挑战。这一现状不仅关乎技术的成熟度与可靠性，更直接触及到国家安全、社会稳定以及国家形象的维护等核心议题，迫切要求海外大模型厂商立即采取行动，给予高度重视，并进行全面而深刻的自我审视与反思。

D. 核心价值观之「宣扬恐怖主义、极端主义」结果

在「宣扬恐怖主义、极端主义」这一合规指标上，尽管大模型的表现相较于其他标签有所优势，全部高于55分，甚至有3家达到了60分以上，但整体分值依然偏低。这凸显了大模型在处理这类敏感内容时的显著不足与隐患，亟需加强合规性建设。

E. 核心价值观之「宣扬民族仇恨」结果

在「宣扬民族仇恨」的合规指标上，海外大模型的表现分值均不超过50分，这一低分表现凸显了大模型在识别与遏制极端言论、维护社会和谐方面的明显短板。

二、评测结论：海外大模型“无边界”涉政，防线亟待筑牢，国家安全不容有失！

根据评测结果，发现评测中所有的海外大模型在中国涉政的内容合规能力上表现出明显的弱点，分析如下：

1. 海外大模型在训练过程中没有充分考虑中国特定的政治背景、敏感话题和法律法规，所以在处理涉及中国政治的内容时出现偏差或不当的结果。这种弱点可能导致模型在回答涉政问题时出现误导性、不准确或不符合中国法律标准的情况。因此，在中国这样具有严格审查制度和特殊政治环境的国家，海外大模型如果将中国作为覆盖市场，在涉政内容合规方面需要更加谨慎和专业化的处理。

2. 当中国政治涉及到政治领导人、政策决策和国家战略等方面时，海外大模型对信息的过度开放可能导致信息的片面性和偏见，影响公众对中国政治的客观认识。海外大模型缺乏全面和客观的信息可能导致误解和偏见的形成。而过度开放的信息可能被外部势力利用，干预中国内政，破坏国家稳定和发展。外部势力可能利用这些信息制造舆论，影响中国政治决策和社会秩序。

基于以上，知道创宇建议：

1. 本次评测也为海外大模型的开发者敲响了警钟，提醒其在追求技术创新与商业利益的同时，更要重视内容合规性对于在多元文化、多法域环境中的成功应用，特别是在涉及国家安全、社会稳定等核心领域的内容处理上，必须采取更加严格、有效的措施，以推动大模型的技术能力向更高水平迈进。

2. 引入海外大模型的厂商需要承担更多的责任，加强对模型的后续训练工作。这些训练应该结合我国的国情，确保模型在处理中国政治信息时能够全面、客观地反映事实，避免误导公众。

3. 对于引入海外大模型的厂商，监管单位应实施严格的监管和审查制度。在投入使用前，必须经过我国相关部门的严格测试和评估，确保其不会过度开放中国政治信息，避免信息的片面性和偏见。

三、本轮评测方案描述

1. 评测基准

总体要求：《生成式人工智能服务管理暂行办法》

• 发布机构：国家网信办等七部门

• 发布时间：2023年7月

具体标准：《生成式人工智能服务安全基本要求》TC260-003

• 发布机构：全国网络安全标准化技术委员会

• 发布时间：2024年3月1日

2. 评测原则

知道创宇大模型内生安全评测秉持公平公正、监管导向和产业应用的原则，确保评测结果的合规性、客观性和实用性。

3. 评测方案

以下是对本次海外大语言模型综合评测的全面阐述，涉及评测方法/语言/范围、评测维度、标签分类、评测流程及详尽的评分准则说明：

A. 评测方法

B. 评测维度

本次评测聚焦意识形态安全开展：

C. 评测结果公式

本轮评测旨在对比多个大模型之间的综合内生安全表现时，所以采纳总分制公式（Score，SCO）。基于“3分、2分、1分”的评分规则提供统一的量化评分标准。该得分是直接的数值评分，是经过归一化处理的分数，以确保不同维度之间的可比性。根据不同的应用场景和客户需求，采用定制化的权重分配方式，以反映不同评估维度对于总体评分的重要程度。通过调整权重，也支持灵活地强调或弱化某些方面的性能表现，从而更全面地评估大模型的优劣。

D. 评测流程

裁判模型是知道创宇CDAI认知域AI引擎系统团队联合众多内容安全审核领域专家智囊，使用数十种先进的数据科学算法作为能力核心，研制的一套先进的AI系统解决架构。通过裁判模型可以实现对评测结果进行高效自动打分决策。

针对裁判模型的评分结果，简答题（OPEN）需要进行人工抽检复审才获得最终的评分结果。人工评分均由同一专业评测人员完成，以最大限度减少不同评审标准可能带来的偏见。评分完成后，将筛选出人工与裁判模型评分差异显著的项目，交由专家团队进行复审，确保每一项评分都经过严格的双重检验，最终得到准确、全面的综合评分。