资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大数据平台数据脱敏技术详解

创作时间:

作者:

@小白创作中心

大数据平台数据脱敏技术详解

引用

来源

https://cloud.tencent.com/developer/article/2030076

随着大数据时代的到来，数据安全和隐私保护成为越来越重要的议题。数据脱敏作为保护敏感信息的关键技术，其重要性不言而喻。本文将为您详细介绍数据脱敏的基本概念、关键技术和应用场景，帮助您更好地理解这一重要技术。

什么是数据脱敏？

数据脱敏（Data Masking），又称数据漂白、数据去隐私化或数据变形，是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。这样，就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。

数据脱敏具有几个关键点：

敏感数据：又称隐私数据，常见的敏感数据包括姓名、身份证号码、地址、电话号码、银行账号、邮箱地址、所属城市、邮编、密码类（如账户查询密码、取款密码、登录密码等）、组织机构名称、营业执照号码、银行账号、交易日期、交易金额等。
脱敏规则：一般的脱敏规则分类为可恢复与不可恢复两类。可恢复类指脱敏后的数据可以通过一定的方式恢复成原来的敏感数据，此类脱敏规则主要指各类加解密算法规则。不可恢复类指脱敏后的数据被脱敏的部分使用任何方式都不能恢复出，一般可分为替换算法和生成算法两大类。
使用环境：主要指脱敏之后的数据在哪些环境中使用。普遍按照生产环境和非生产环境（开发、测试、外包、数据分析等）进行划分。

静态数据脱敏与动态数据脱敏

在最近一期的Gartner关于数据脱敏的报告中，根据数据脱敏产品应用场景将数据脱敏划分为静态数据脱敏（Static Data Masking，SDM）和动态数据脱敏（Dynamic Data Masking，DDM）。

静态数据脱敏（SDM）：一般用在非生产环境，在敏感数据从生产环境脱敏完毕之后再在非生产环境使用，主要用于解决测试、开发库需要生产库的数据量与数据间的关联，以排查问题或进行数据分析等，但又不能将敏感数据存储于非生产环境的问题。
动态数据脱敏（DDM）：一般用在生产环境，在访问敏感数据当时进行脱敏，主要用于解决在生产环境需要根据不同情况对同一敏感数据读取时需要进行不同级别脱敏的问题。

隐私数据脱敏技术

通常在大数据平台中，数据以结构化的格式存储，每个表有诸多行组成，每行数据有诸多列组成。根据列的数据属性，数据列通常可以分为以下几种类型：

可确切定位某个人的列，称为可识别列，如身份证号，地址以及姓名等。
单列并不能定位个人，但是多列信息可用来潜在的识别某个人，这些列被称为半识别列，如邮编号，生日及性别等。
包含用户敏感信息的列，如交易数额，疾病以及收入等。
其他不包含用户敏感信息的列。

所谓避免隐私数据泄露，是指避免使用数据的人员（数据分析师，BI工程师等）将某行数据识别为某个人的信息。数据脱敏技术通过对数据进行脱敏，如移除识别列，转换半识别列等方式，使得数据使用人员在保证可对半识别列，敏感信息列以及其他列进行数据分析的基础上，在一定程度上保证其无法根据数据反识别用户，达到保证数据安全与最大化挖掘数据价值的平衡。

隐私数据泄露类型

隐私数据泄露可以分为多种类型，根据不同的类型，通常可以采用不同的隐私数据泄露风险模型来衡量防止隐私数据泄露的风险，以及对应不同的数据脱敏算法对数据进行脱敏。一般来说，隐私数据泄露类型包括：

个人标识泄露：当数据使用人员通过任何方式确认数据表中某条数据属于某个人时，称为个人标识泄露。个人标识泄露最为严重，因为一旦发生个人标识泄露，数据使用人员就可以得到具体个人的敏感信息。
属性泄露：当数据使用人员根据其访问的数据表了解到某个人新的属性信息时，称为属性泄露。个人标识泄露肯定会导致属性泄露，但属性泄露也有可能单独发生。
成员关系泄露：当数据使用人员可以确认某个人的数据存在于数据表中时，称为成员关系泄露。成员关系泄露相对风险较小，个人标识泄露与属性泄露肯定意味着成员关系泄露，但成员关系泄露也有可能单独发生。

隐私数据泄露风险模型

将数据开放给数据分析人员，同时就引入了隐私数据泄露的风险。在限制隐私数据泄露风险在一定范围内的同时，最大化数据分析挖掘的潜力，是数据脱敏技术的最终目标。目前在隐私数据脱敏领域，有几个不同的模型可以用来从不同角度衡量数据可能存在的隐私数据泄露风险。

K-Anonymity

隐私数据脱敏的第一步是对所有可标识列进行移除或是脱敏，使得攻击者无法直接标识用户。但是攻击者还是有可能通过多个半标识列的属性值识别个人。攻击者可能通过社工（知道某个人的姓名，邮编，生日，性别等）或是其他包含个人信息的以开放数据库获得特定个人的半标识列属性值，并与大数据平台数据进行匹配，从而得到特定个人的敏感信息。

为了避免这种情况的发生，通常需要对半标识列进行脱敏处理，如数据泛化等。数据泛化是将半标识列的数据替换为语义一致但更通用的数据。

Samarati and Sweeney引入了K-Anonymity用于衡量个人标识泄露的风险。K-Anonymity定义如下：

K-Anonymity要求对于任意一行纪录，其所属的相等集内纪录数量不小于k，即至少有k-1条纪录半标识列属性值与该条纪录相同。

作为一个衡量隐私数据泄露风险的指标，K-Anonymity可用于衡量个人标识泄露的风险，理论上来说，对于K-Anonymity数据集，对于任意纪录，攻击者只有1/k的概率将该纪录与具体用户关联。

L-Diversity

K-Anonymity可用于保护个人标识泄露的风险，但是无法保护属性泄露的风险。对于K-Anonymity的数据集，攻击者可能通过同质属性攻击与背景知识攻击两种方式攻击用户的属性信息。

Machanavajjhala et al. 引入了L-Diversity用于衡量属性泄露的风险，L-Diversity定义如下：

如果对于任意相等集内所有记录对应的敏感数据的集合，包含L个”合适”值，则称该相等集是满足L-Deversity。如果数据集中所有相等集都满足L-Deversity，则称该数据集满足L-Deversity。

所谓L个“合适”值，最简单的理解就是L个不同值。基于图二的数据通过插入干扰纪录，一个3-Anonymity 2-Diversity的数据集如表三所示：

相对于K-Anonymity标准，符合L-Deversity标准的数据集显著降低了属性数据泄露的风险。对于满足L-Diversity的数据集，理论上，攻击者最多只有1/L的概率能够属性泄露攻击，将特定用户与其敏感信息关联起来。

T-Closeness

直观的来说，隐私信息泄露的程度可以根据攻击者增量获得的个人信息衡量。假设攻击者在访问数据集之前已知的个人信息为B0，然后假设攻击者访问所有半标识列都已移除的数据集，Q为数据集敏感数据的分布信息，根据Q，攻击者更新后的个人信息为B1.最后攻击者访问脱敏后的数据集，由于知道用户的半标识列的信息，攻击者可以将某用户与某相等集联系在一起，通过该相等集的敏感数据分布信息P，攻击者更新后的个人信息为B2.

L-Diversity约束是通过约束P的diverisity属性，尽量减少B0和B2之间的信息量差距，差距越小，说明隐私信息泄露越少。T-Closeness约束则期望减少B1和B2之间的信息量差距，减少攻击者从敏感数据的全局分布信息和相等集分布信息之间得到更多的个人隐私信息。T-Closeness的定义如下：

如果一个相等类的敏感数据的分布与敏感数据的全局分布之间的距离小于T，则称该相等类满足T-Closeness约束。如果数据集中的所有相等类都满足T-Closeness，则称该数据集满足T-Closeness.

T-Closeness约束限定了半标识列属性与敏感信息的全局分布之间的联系，减弱了半标识列属性与特定敏感信息的联系，减少攻击者通过敏感信息的分布信息进行属性泄露攻击的可能性。不过同时也肯定导致了一定程度的信息丢失，所以管理者通过T值的大小平衡数据可用性与用户隐私保护。

大数据脱敏平台

用户隐私数据保护与挖掘用户数据价值是两个互相冲突的矛盾体，彻底的数据脱敏，需要抹去全部的用户标识信息，使得数据潜在的分析价值大大降低。另一方面，完全保留用户隐私数据信息，可最大化数据的分析价值，同时导致用户隐私泄露的风险无法控制。因此大数据脱敏平台的设计目标并不是实现工具算法用来完全抹去全部的用户标识信息，而是包括如下几个目标：

数据泄露风险可控。首先，实现基于大数据平台的脱敏算法库，可并行，高效的按照脱敏规则对隐私数据进行脱敏。其次，基于数据脱敏的理论基础，建立用户隐私数据泄露风险的衡量模型，可定性定量的准确衡量数据可能发生泄露的风险。
可管理。结合大数据平台的用户认证体系，权限管理体系，以及隐私数据不同保护级别的权限管理体系，实现对隐私数据基于审批的数据访问机制。结合公司制度，规范，法务等管理，实现在尽可能保护用户隐私数据，减少数据泄露风险的前提下，最大化保留数据分析挖掘的价值。
可审计。对数据的访问要保证可回溯，可审计，当发生数据泄露时，要保证能够通过审计日志找到对应的泄露人员。

大数据脱敏平台的设计方向一般包括静态大数据脱敏平台和动态大数据脱敏平台，所谓静态和动态之分，主要在于脱敏的时机不同。对于静态脱敏来说，数据管理员提前对数据进行不同级别的脱敏处理，生成不同安全级别的数据，然后授予不同用户访问不同安全级别数据的权限。对于动态脱敏来说，管理员通过元数据管理不同用户访问具体数据的安全权限，在用户访问数据的时候，动态的从原始数据中按照用户权限动态的进行脱敏处理。大数据平台脱敏技术方案是一个非常有趣的课题，目前业界还没有看到有成熟的方案，鉴于其对数据安全和数据价值的作用，非常值得深入研究，希望以后可以继续以合适的方式分享我在这方面的研究与实践。