近日，中国信息通信研究院安全所开展了“数据安全产品能力验证计划”测评，阿里云成为首家通过数据分类分级进阶级认证的云厂商。至此，阿里云数据安全中心已经累计通过数据脱敏、数据库审计、数据分类分级等多项能力的官方测评。
![](https://p4.ssl.qhimg.com/t01078ad1ac43500435.jpg)
在信息数字化时代里，黑客的攻击越来越组织化、目的化、经济化，直指企业核心资产：对数据的盗取、加密和勒索。根据IBM调研显示，企业数据泄漏防护成本逐年增加，2022年已经达到435万美金，巨大经济支出的背后是依旧千疮百孔的防御系统。

数据，作为业务的核心、组成与结果，在人体中就像是血液一般的存在，当我们试图去厘清其脉络时，却发现它无处不在，难以衡量。自2021年《数据安全法》颁布执行以来，相关的企业数据安全解决方案层出不穷，大浪淘沙，在热度逐渐回归的当下，企业需要的是可落地执行的方案。

阿里云数据安全中心，自2018年以来，一直深耕于云环境下的数据安全研究。不同于空泛的“保护”，以数据为中心，风险为导向，建设基于数据域的分类分级防护体系，落地从感知、态势管理、治理到防护的数据安全治理，才是阿里云数据安全的探索方向。

（阿里云云上数据治理全流程）

以资产为核心的数据感知

感知，是一个拟人化的词语，人类靠着视觉、听觉、触觉、味觉等能力来时刻感受，知晓自身所处的环境与现状。对于企业而言，知道数据资产有哪些，存放在什么样的位置，哪些是敏感数据，哪些是可公开数据，并依据此绘制数据地图，是数据安全治理的第一步，但机器并非人体，能让其协调的联动互通，整体感知，隐藏着诸多难点。

01.数据资产的全面性

在线下，数据往往呈现孤岛状态，彼此之间难以统管统查，割裂的接入不仅让全局混淆不清，也是个缓慢且复杂的过程，需要一个一个找DBA收集连接凭据，并单独录入。而云平台天然的统一底座与API接口，让数据接入的广度和效率都极大提升。阿里云数据安全中心现已接入OSS、RDS、MaxCompute、MongoDB等8类云上主流存储产品，并实现统一扫描，集中展示，有效发现影子数据。同时，云底座的耦合性，可实现各云产品的一键获取+一键授权，对于在云上拥有数百上千数据库实例的客户，将会极大节省运维工作量。

02.数据资产识别的准确性

如果说数据的接入量级决定着资产地图的全面性，那么数据识别和分类分级的准确度，则决定着地图是否真的可用。

识别准确性的提升并不容易，首先在技术上，需要持续迭代特征和模型、以及对应的数据校验规则。举个例子，对于“工资单”这个敏感性极高的数据类型，它是人名+数字+年月等等的集合，在不同的公司/行业里的叫法和格式也不一样，相对应的特征越多，识别也就越准确。此外，通过组合特征的判定，例如交叉判定身份证、员工ID、员工入职年份等信息，能更细粒度的进行数据筛选。

阿里云数据安全中心在覆盖云上多数据源的情况下：

· 支持200种文件类型、500种以上的敏感数据识别能力

· 对于新型数据特征，可实现自动实时添加，持续提升模型丰富性

· 在算法上引入多类数据校验机制：身份验证码、基于Luhn算法的银行卡校验规则、IMEI验证码……识别的当下即可判断其正误，并非仅依赖于数据格式。

但通用的识别模型再准确，也难以覆盖行业的特殊性，正所谓“隔行如隔山”，数据身上也有强烈的行业烙印，例如“行驶轨迹”“车辆工况”“车辆基本属性”等汽车行业专属敏感词，在通用识别模型中很可能会被直接忽略。阿里云数据安全中心持续和各行头部客户共创，并依据行业合规监管标准，提供给客户“1+N”可选识别模板，覆盖个人信息（GB/T 35273）、车联网、金融、能源、互联网等多类型，并通过法律条文、行业规范、企业制度等丰富的上下文信息，对数据敏感度进行等级划分，实现以资产视角为中心的重要度排序。

同时阿里云数据安全中心也支持客户自定义分级标准，为数据风险处理优先级提供细粒度判断依据。

03.数据的量变到质变

拿当下最火的LMM大模型举例，2018年GPT诞生之际，其预训练数据量约5GB，参数量大约1.17亿，而到2020年，GPT迭代到第三代，其商业化成果也正是一举引爆市场的Chat-GPT，训练数据量级已达到40GB，参数量约15亿，而到GPT-4，据外媒SemiAnalysis揭秘，训练参数量级达到1.8万亿，是最初训练量级的15384倍。

对于数据识别模型，特别是非结构化数据，量变不一定会产生质变，但准确度提升一定离不开大规模的数据识别量。阿里云数据安全中心，自上线以来，平均每月自动化分类分级4.5亿份文档，总数量已达54亿+。

· 针对结构化数据：新增的识别特征会自动化更新，保证模型识别的准确性；

· 针对非结构化数据：在模型之外，辅助以OCR、NLP等技术，并通过关联比对，提升准确度。

以风险为核心的态势管理

通过数据识别和分类分级，企业以资产为核心，绘制云上数据大图，并在大图的指导下，对数据面临的风险做统一管理。

阿里云数据安全中心于今年推出DSPM（数据安全态势管理）能力，以GB/T 37988-2019《信息安全技术数据安全能力成熟度模型》为依据，定义了8种常见的数据风险场景，150+检查项，形成以风险为核心的运维态势管理。

不同于线下的各自为政，云上原生化的优势，使得多产品联动、多策略可统一拉齐。阿里云数据安全中心通过获得授权API接口，将8类不同数据产品的监控统一，并根据阿里云数据安全最佳实践形成的检测基线，对各类数据资产实现统一的扫描检测，包括身份权限、敏感数据、访问控制、数据备份、数据传输加密等多条检测项，用户在单一的控制台即可实现全域数据态势监控，极大降低企业运维复杂度。

以加密为基础的数据治理

目前对于数据风险的核心治理手段有两类：加密和权限控制。

对数据的治理并非单点单次，而是在持续性数据识别和风险识别的基础上，综合判断资产重要性与风险危害性，及时进行风险治理，防止潜在的数据泄漏。阿里云为云上企业提供从底层的身份权限管控、KMS密钥管理、数据容灾备份，到上层的业务数据脱敏、SSL证书等系列安全能力，协助客户全面收敛安全风险。

以事件为核心的动态监控

全国著名咨询机构Gartner曾在报告中写到，到2023年，至少99%的云安全故障将是客户的错。以上三个流程核心聚焦于事前的安全加固，旨在最大化收敛「99%」的由配置错误、影子资产、权限错误等问题带来的风险。但从攻击者视角出发，无论事前的防护有多么牢固，仍有「1%」的概率直取黄龙，在事中和事后及时的告警也必不可少。

阿里云数据安全中心提供给客户全面的数据审计能力，通过云上广泛的数据产品接入量（包含关系型数据库、非关系型数据库、大数据、非结构化数据库、自建数据库等）以及基于机器学习的动态UEBA分析引擎，辅助以各类规则，综合研判用户行为，及时阻断风险。

近期，在阿里云内部蓝军演练中，阿里云数据安全中心通过审计记录分析、行为基线对比、UEBA动态风险分研判等操作，成功发现某近两月无访问和下载行为的某OSS下Bucket数据集，突然出现访问及下载行为，通过对IP地址、访问时间、访问地点、行为等多重信息的交叉比对，成功发现并阻止了攻击队的数据入侵行为。

数据安全治理

敏感数据分布与使用管理

数据安全态势感知