新技术赋能数据要素安全流通
新技术赋能数据要素安全流通
数据要素作为一种新型生产要素,在其流转、使用、共享过程中可以极大地激发自身的使用价值和交换价值,为各行业创造大量新业务,提升社会的整体生产力。然而,数据要素的安全流通面临着诸多挑战,需要借助新技术来实现安全可控的流转。本文从数据要素安全与传统数据安全的差异出发,详细介绍了隐私计算、机密计算等新技术在数据安全流通中的应用,并通过具体案例展示了这些技术的实际效果。
数据要素安全与传统数据安全的差异
数据要素安全与传统数据安全的差异如表1所示。
安全目标 | 传统数据安全 | 数据要素安全 |
---|---|---|
安全目标 | 防止数据泄露 | 保证数据流转过程中的安全 |
威胁模型 | 恶意攻击方 | 不诚实的第三方 |
安全设计 | 逆向思维 | 正向思维 |
从安全目标角度看,类似其他生产要素,数据要素的使用价值得以实现、交换价值得以增加依赖于数据在所有方与使用方之间流转起来。数据要素安全则是保证该流转过程中的数据不被滥用、误用。当前大部分企业、机构的安全团队,还在用网络安全的技术和体系做数据安全,如异常检测、访问控制等,这是现阶段的数据安全,注重防止重要数据外泄、被攻击方窃取。
从威胁模型角度看,在数据安全的威胁模型中,敌方是恶意攻击方,如高级持续威胁(Advanced Persistent Threat,APT)组织、攻击团伙等;而在数据要素安全的威胁模型中,敌方则是不诚实的第三方,如窥视数据的合作伙伴。两者风险不一致,数据安全相关技术不能成为推动数据要素安全流转的关键技术和机制,但目前的数据安全机制可以是数据要素安全的底座和基础,讨论对手模型是诚实或半诚实的基础在于已解决了恶意攻击方的风险。
从安全设计、体系化和实现角度看,在传统数据安全体系中,设计思维模式是找到逆向思维,找到突破点,进而补齐;而在数据要素安全体系中,则偏正向思维,即要在多个合作方间实现数据要素流转和安全计算,就应正向构建一个可证明的安全环境,而不是先假设对方是恶意攻击方去穷举各种攻击手段。因此,基于密码学的机密计算、可信计算、隐私计算等技术就成为了赋能数据要素安全的关键技术。
可见,从传统数据安全走向数据要素安全,一方面要将传统数据安全和网络安全做好,将其作为数据要素流转的安全底座;另一方面要关注业务本身,通过选择合适的新技术、架构和流程保证数据要素安全。
赋能数据被安全使用的新技术
基于密码学构建的安全体系,致力于通过数学的方式设计并证明新的运行环境或新的算法可以让数据使用方或非授权的第三方无法直接接触原始数据,而只能获得黑盒计算的结果。近年来出现了多种新技术,可赋能数据被安全使用,即数据“可用不可见”。常见的新技术包括隐私计算、机密计算等,具体又可分为联邦学习、安全多方计算和可信执行环境(Trusted Execution Environment,TEE)等。
联邦学习
联邦学习是多方协作共同完成一个机器学习任务,各方共享算法,但彼此只能看到己方数据,在每一轮迭代时,仲裁方综合各方梯度,最终完成本轮梯度下降,经多轮迭代后算法实现收敛(见图1)。联邦学习各方间传输的是梯度,以确保原始数据不出本地。联邦学习自身的安全性(如数据投毒[3-4]、隐私泄露问题[5])是研究的热点。
图1 多方参与的联邦学习
安全多方计算
安全多方计算[6]是通过不经意传输、混淆电路等密码学技术,增加计算复杂度或网络传输复杂度,从而保证相关合作方在给定时间内无法区分真实数据与其他随机生成数据。安全多方计算的模型如图2所示。
图2 安全多方计算模型
TEE
TEE[7]是通过具有机密计算能力的硬件,构建一个机密、可信的执行环境,该环境可以是一个进程的内存空间,也可以是一个虚拟机的内存空间,空间以外的用户无法看到TEE内的工作负载、数据或其他资源,从而保证了机密性和完整性。图3展示了TEE服务器与普通计算服务器不同的结构,其中安全加密虚拟机是被TEE保护的。
图3 可信执行环境与普通计算的对比
此外还有一些技术,如合成数据[8]、数据脱敏、同态加密等,都可以用于数据安全流转场景。尽管这些新技术在不同层面解决了数据安全流转和安全计算的问题,但需要看到的是,目前行业中采用相关技术的产品还处于早期阶段。
联邦学习与安全多方计算是通过软件实现加解密,可以部署在现有的计算环境中,但难免遇到下述两个问题。
(1) 软件实现加解密速度较明文计算差距巨大,在生产环境中性能存在瓶颈。当前有工作尝试使用现场可编程门阵列(Field Programmable Gate Array,FPGA)实现加解密,但这种技术路线需要额外的硬件支持,缺乏部署通用性。
(2) 业务迁移成本较大。联邦学习需要对机器学习算法进行改造适配,而安全多方计算则多见于专有算法,如隐私信息检索(Private Information Retrieval,PIR)。一般机构的现有业务很难使用这些算法进行迁移,且每次升级成本较高。
TEE通过支持机密计算的硬件,可以对程序做较少修改(如Intel SGX、ARM Trustzone)或完全不修改(如AMD Sev、海光CSV和Intel TDX),降低业务迁移和维护成本,同时其加解密均在芯片中通过硬件完成,整体的计算性能较高。但现阶段并非所有的处理器都支持TEE(特别是基于加密虚拟机技术的),因此在部署时往往需要采购额外的硬件设备。
总之,部署容易程度、业务迁移和维护的成本、整体性能,成为当前主流技术在物理环境中不能同时兼顾的3个方面,可视为新技术赋能不同场景时面临的“矛盾三角”(见图4)。业界应针对具体场景需求,选择最适合的支撑技术,以保证数据要素安全流转。
图4 新技术赋能不同场景时面临的“矛盾三角”
数据要素安全流转的技术基石
联邦学习和安全多方计算的重点在于多方协作计算,关注数据要素本身较少,当前多方通过数据不出域的假定,完成对特定任务的计算。然而,随着数据使用方不断增加,数据要素使用场景不断复杂化,数据加工方不断增多,造成数据要素生产变现的链条将越来越长,数据出传统的机构域将成为必然。数据拥有方能否在数据要素生命周期内保持对数据要素的控制权,将是一个重大挑战。
图5展示了数据要素安全流转所需的关键技术和机制。在正向安全体系构建环节,事前的预防是重点,主要技术有数据脱敏、数据水印和TEE。
图5 数据要素安全流转的技术全景图
数据脱敏
数据脱敏可分为动态数据脱敏和静态数据脱敏,其原理是对出域的数据做去标识化,将可溯源的字段内容作掩盖,如用“*”替换。但数据脱敏不是完备的数据安全流转技术,如果去标识化过度,容易造成后续生产输入数据不可用的风险;而如果去标识化不足,则容易被攻击方反推出原始信息(如“检察官攻击”)。数据脱敏中的脱敏颗粒度和迭代次数,应采用人工智能技术,根据威胁情报和业务相关第三方数据做动态调整。
数据水印
数据水印是指在数据流转前添加一些可见或不可见的特征,使得在数据流转过程中可根据中间数据回溯到每个环节的数据加工方、使用方和数据源头。数据水印可以防止数据被非授权使用,但不能保证其秘密性。
TEE
TEE构建的机密环境,可以为数据使用方进行安全计算的同时存储或销毁数据提供保障。如果在多个TEE间建立安全的网络通道,即图5中的安全网络域,数据就可以在域内进行安全传输,实现在被采集之后的整个链条可信流转。
数据要素安全流通的实践
数据要素市场需求和技术还处于早期阶段,采用上文所述新技术的数据要素安全产品很多还在试点示范阶段。
隐私计算(如银行、保险机构和第三方企业联合对借贷人的征信进行计算等)在金融行业开展最为积极,但总体而言还缺乏成熟、规模化的应用。原因在于相关技术还在快速迭代发展过程中,而业务场景、参与方较复杂,还缺乏标准化的支撑平台。此外,开发、调试应用需要部分数据可见,也对数据“可用不可见”的目标产生了一定的挑战。
综上所述,TEE在使用、存储和销毁等环节可以保护数据的秘密性、完整性,再加上合理的鉴权机制,可以对整个生命周期和流转链条中的数据要素所有权进行确权。可以看到,芯片厂商、服务器厂商和操作系统厂商都开始在可信计算和机密计算领域加大投入,初步形成了安全启动、机密注入和机密虚拟机管理等能力。安全厂商也积极采用机密计算技术构建安全可信的计算和存储载体(即“数据保险箱”),本地数据保险箱内数据存储是安全的,不会被恶意攻击方窃取。在流通环节,数据拥有方拥有数据所有权,即便移动到第三方的数据保险箱中,也能通过授权控制第三方对数据的使用和计算方式。
案例1:疫情数据封存
在新冠肺炎疫情防控期间,以健康码、行程码等为代表的应用极大提升了公共健康管控的效率,也带来了个人信息泄露的风险。2023年3月,新冠肺炎疫情管控结束伊始,无锡市宣布销毁疫情相关个人数据,引发公众对政府为保护个人隐私所做努力的关注和赞赏。但是,从数据流转的角度来看,当时的技术很难销毁在数据流转过程中所有的残留数据。
如果使用TEE,则可在数据拥有方(如卫健委、医院等)和数据使用方(公共安全部门、政策制定者)部署数据保险箱,多个数据保险箱通过加密通道可信互联。
首先,数据拥有方O、数据使用方U分别通过安全厂商的身份认证服务获得私钥和证书(PriO, PubO)(PriU, PubU),用于鉴别对方的身份,该身份可以通过TEE硬件得到安全厂商和芯片厂商的背书。
然后,数据拥有方O颁发许可L(O,U,d,{(ai, ci)}),仅授权数据使用方U对数据d进行{ ai }操作,且操作ai的约束ci。其中,ai包括文件读写、应用程序编程接口(Application Programming Interface,API)操作等,ci包含时间约束、频度约束等。如此,数据拥有方可以通过许可L按需定义控制策略,有效控制外单位对敏感数据的使用方式和时长。
在疫情数据封存的场景中,数据拥有方定期向数据使用方颁发有时间约束的许可,在许可超时后,数据使用方的数据保险箱会因当前数据无有效许可而销毁,从而保证了整个数据流转链条上所有数据使用的可控(见图6)。
图6 疫情数据封存场景
案例2:医学科研联合计算
在医学科研场景下,医院或医学院的科研人员需要利用所属医院或当地卫健委的各类疾病数据进行包括联合建模在内的科学计算(见图7)。一方面,医院本地的计算资源不充足,因此医院的工作负载和数据要迁移到超算中心,利用超算的资源进行计算;另一方面,医院本地的数据也不足以支撑某项特定研究所需的数据规模,因此要么该医院的数据流向当地卫健委,要么当地卫健委的数据流向该医院。
图7 医学科研的联合计算场景
在数据和工作负载的流动过程中,需保证数据在全过程中的安全性。此时,多方均部署数据保险箱,形成一个虚拟的、云化的安全计算环境,就能保障己方、第三方数据可以协同、安全地计算,而不需要担心数据泄露或合规性的风险。
结束语
从数据要素安全流通的行业实践和发展来看,基于机密虚拟机的机密计算技术将成为趋势,以容器镜像、虚拟机镜像为载体的业务迁移成本可忽略不计,并且具有较高的计算性能。虽然当前客户需要采购新的硬件,因而无法利旧,但从长远看,未来出厂的处理器都会内置机密计算的能力,因而该问题将得到解决。
当前,推动数据要素安全流通还面临一些问题。首先,面向数据要素流通的组织架构、目标定位还不清晰,缺乏数据要素流转的整体定位。很多机构尚未开展数据分级分类、数据安全风险评估等工作,故对自身数据不了解,无法准确地评估自身数据在流通过程中面临的风险。因此,此类机构尚需要推动相关的数据安全基础性工作。其次,数据“可用不可见”的相关技术和系统缺乏标准化的互联能力。不同版本、厂商、技术路线的联邦学习、机密计算系统不能互联互通,限制了数据要素流通和协同计算的推广。因此,产业中的相关方应积极推动互联互通标准和应用接口落地。
虽然联邦学习、TEE都属于数据要素安全流通的支撑技术,但在实践中还需结合其他技术组合,共同构建完整的数据要素安全流转体系。业界应根据相应场景采用合适的技术方案和产品,才能在数据要素流转产生价值的同时,切实保障数据要素安全,降低业务的迁移成本和人员的使用成本,最终实现数据要素安全流通的未来目标。
