首页/人工智能/融合机密计算的数据安全处理研究进展/
融合机密计算的数据安全处理研究进展
2025-12-15 09:52:1949浏览
源自:信息网络安全

0 引言

随着移动互联网、云计算等基础设施的不断完善,电子政务、社交网络、医疗健康、电子商务等复杂信息系统数据爆发性增长。与此同时,数据也成为各类互联网服务发展的驱动燃料。通过对广域分布的数据进行提取、整合、抽象、归纳等处理,发掘海量数据蕴含的知识并对其进行利用,已经成为互联网发展的关键。然而,数据逐渐显露出的资产属性、愈发严格的数据安全法律法规和不断增强的个人隐私泄露顾虑,都在不断加剧数据孤岛现象,导致数据资源难以跨部门、跨行业、跨领域、跨平台进行共享与交换。

为解决数据跨域流转中的安全问题,学术界针对数据采集、计算、存储、使用等数据处理环节,提出了同态加密、安全多方计算、匿名化、差分隐私等多种数据安全处理方法,通过对数据进行加密、混淆、加扰等操作,在软件和算法层面保证用户敏感数据的安全。而在基于硬件的数据安全保护方面,以Intel公司的SGX(Software Guard Extensions)技术、ARM公司的TrustZone技术为代表的可信执行环境也得到了数据安全从业人员的广泛研究。

1)传统数据安全处理方案

针对数据交换与共享过程中存在的隐私泄露与数据安全问题,学术界相继提出了多种数据安全处理技术,主要包括同态加密[1]、安全多方计算[2]、匿名化[3]、差分隐私[4]等。

(1)同态加密

1978年,RIVEST[5]等人在论文“On Data Banks and Privay Homomorphic”中提出了同态加密(Homomorphic Encryption,HE)的概念。同态加密支持对密文直接进行运算,所得到的结果仍是密文,且与对应明文运算后再加密的结果相同。利用上述同态特性,用户能够将数据计算从明文域转换到密文域中进行以保护敏感数据安全。但同态加密通常包含大量复杂运算,需要消耗大量计算资源,使其难以在资源受限的场景中应用。

(2)安全多方计算

安全多方计算(Secure Multi-Party Computation,MPC)通常基于秘密共享、零知识证明、混淆电路等技术,支持在保护多个计算参与方敏感数据的同时,实现一个特定任务的协同计算。自20世纪80年代诞生以来[6],安全多方计算就一直在密码学中占据重要地位。然而,安全多方计算协议通常需要在各计算参与方之间进行多轮交互以完成固定运算,难以适用于动态变化的数据计算场景,并且会带来较大的通信开销。

(3)匿名化

1998年,SAMARATI[3]等人提出了匿名化的概念。匿名化技术通常被用于互联网服务中的数据采集和发布阶段,通过一定的策略,将数据拥有者的个人信息及敏感属性的明确标识符删除、修改或者泛化,从而使用户的敏感数据无法与个人进行关联,以达到隐私保护的效果。但经过匿名化处理的数据通常会带来原有信息的损失,造成数据可用性的下降。同时,在敌手拥有足够知识背景信息的场景中,匿名化技术不足以为用户的数据提供较强的安全保障。

(4)差分隐私

2006年,微软研究院的DWORK[4]等人提出一种不依赖于攻击者背景知识的隐私保护技术,即差分隐私技术(Differential Privacy,DP)。相比于传统的密码学技术,差分隐私技术直接在用户敏感数据中加入噪声,部署成本更低,算法更加轻量,因此,差分隐私很快成为了隐私保护和数据安全领域的研究热点,吸引了大量研究者的关注,并有了广泛的技术应用。但差分隐私通过在原始数据中加入噪声以达到隐私保护的效果,且噪声不可被消除,存在数据可用性下降的问题。在机器学习相关应用中,会对生成模型的质量造成影响,进而降低数据预测的精确度。

2)可信执行环境解决方案

在智能设备中,富执行环境(Rich Execution Environment,REE)指操作系统的主要执行环境,可以运行如Android、iOS、Windows等通用的操作系统。REE是一个容易受到攻击的开放环境,如敏感数据的窃取、移动支付盗用等。而可信执行环境(Trusted Execution Environment,TEE)是中央处理器上的一个安全区域,具有运算和储存功能,能提供数据安全性和程序完整性保护的独立处理环境。具体来说,在确保数据的安全性方面,可信执行环境为敏感数据单独分配一块隔离的内存,所有敏感数据的计算均在该内存中进行,并且除了经过授权的接口外,操作系统、Hypervisor等特权应用都无法访问安全内存中的数据和执行程序,以此来实现敏感数据的安全计算;在确保执行程序的完整性方面,可信执行环境为用户提供远程证明和本地证明机制,其中,远程证明是飞地(Enclave)和远程服务提供者之间的证明过程,通过与远程服务器进行交互,Enclave可证明自己的身份、可信执行环境的真实性以及代码的完整性。而本地证明则是同一硬件平台上的不同Enclave之间的证明,目的是保证双方都在同一硬件平台上,从而可以调用本地通信的API完成信息的交互。

TEE安全性是建立在数据所有者对软件开发者和硬件提供者信任的基础上,其信任模型如图1所示。在TEE信任模型中,分为数据所有者、软件开发者、计算资源提供者、安全容器提供者四类实体。其中,计算资源提供者(如第三方云服务器、远程计算平台等)对数据所有者来说是不可信的,即用户的敏感数据不能以明文的形式在计算资源提供者的REE环境中进行流转。而软件开发者和安全容器的提供者对数据所有者是可信的,通过该信任关系,能够确保TEE隔离执行环境的安全性,即用户的敏感数据能够以明文形式在远程的TEE环境中进行计算和分析。

目前,较为主流的可信执行环境产品大部分是TEE+CPU的异构计算架构。例如,ARM公司于2008年发布了TrustZone技术白皮书,提出了一种硬件虚拟化技术TrustZone及其相关的硬件实现方案。近年来,ARM也成为了移动端最具影响力的方案供应商,其TEE技术也在行业内处于主导地位。除此之外,另一种比较主流的可信执行环境产品是Intel公司推出的SGX。与TrustZone不同,SGX目前被大量应用在云计算安全领域,如构建云平台应用安全隔离执行环境、构建安全容器、构建云平台大数据安全可信计算环境和网络功能虚拟化的状态保护。

近年来,随着可信执行环境的不断发展与广泛应用,研究人员致力于将TEE与GPU、NPU等硬件计算资源进行结合,形成功能更强的异构可信计算体系。2018年,微软公司提出Graviton方案[7],通过将页表的管理委托给可信的GPU Command Processor,防止攻击者通过恶意的设备驱动任意修改和读取内存,构建了GPU下的可信执行环境,该方案是TEE和GPU结合的可信计算架构。2019年,Intel提出HIX方案[8],该方案以CPU下的可信执行环境为中心,通过将SGX的指令集进行拓展,使其能够与GPU进行结合。ZHU[9]等人基于FPGA的软件定义PCIe结构,提出HETEE方案,利用FPGA管理和限制数据的访问权限,实现了可信执行环境边界在GPU、NPU等异构计算资源中的拓展。

3)TEE与传统数据安全处理方案对比

传统数据安全处理方案在实际应用过程中,其安全性定义与假设得到了比较广泛的认同,但其在功能和性能上仍存在一些不足。同态加密、安全多方计算等技术需要紧密耦合具体的算术运算,虽然能够实现对密态数据的处理,实现用户敏感信息的有效保护,但现有方案通常仅支持线性同态操作,且计算和通信开销较高,难以高效的对海量数据进行复杂密文运算。匿名化、差分隐私等技术通过数据泛化或在数据中加入不可逆的噪声实现敏感数据的保护,具有较高的计算效率,但通常会带来数据可用性的损失。而TEE通过可信硬件构建了一种封闭的可信执行环境,其安全性是建立在数据所有者对软件开发者和硬件提供者信任的基础上。在TEE中,一旦信任关系假设成立,数据所有者的敏感数据即可在TEE中以明文的形式进行计算和处理。然而,当前数据计算资源主要由CPU、GPU、NPU等组成,绝大多数都缺少TEE环境,且已有的主流TEE也存在计算能力弱、内存小等局限性。传统密码学技术与TEE技术的特点分析如表1所示。

表1 传统密码学技术与TEE技术特点分析

针对传统数据安全处理技术和可信执行环境所面临的挑战,近年来,学术界和工业界致力于将各类软硬件资源进行整合,形成异构协同的可信计算框架。如图2所示,在硬件异构的可信计算方面,研究者将TEE与CPU、GPU、NPU等硬件资源进行结合,实现可信执行环境安全边界的进一步拓展。在软硬件协同的可信计算方面,现有工作的核心思路是将传统数据安全处理技术应用于REE环境,确保REE中数据的安全性。同时,借助TEE具有隔离执行环境的优势,将密码学中难以处理的复杂计算在TEE中进行,对传统密码学方案进行功能和性能的增强。本文对现有融合TEE的数据安全处理方案进行了总结与分析。

1 现有工作进展

针对TEE与数据安全处理技术融合过程中的挑战,学术界做了大量相关研究工作,本章对现有工作进行了归纳梳理,将其分为融合TEE的密码算法与安全协议和TEE辅助的数据安全处理应用两大类,并选取有代表性的工作进行介绍和分析。

1.1 融合TEE的密码算法与安全协议

传统的同态密码算法和安全多方计算协议具有计算效率低、通信开销大等短板,而TEE具有隔离执行环境的优势,通过将TEE引入密文计算中,能够对传统密码学方案进行功能和性能的增强。当前研究主要聚焦在利用TEE进行密码算法优化和安全协议设计两个方面。

1.1.1 融合TEE的密码算法优化

基于密码算法的优化通常从底层算子出发提升同态密文的操作效率,如优化编码、密文乘法、自举等操作,其实现复杂且提升效率一般不明显。现有工作通过引入TEE技术,解决密码算法的功能单一以及效率问题,实现同态密文运算的优化和性能提升。融合TEE的密码算法优化的代表作如下。

针对密码算法功能单一的问题,FISCH[10]等人基于SGX完全可信的信任模型,在安全硬件的支持下,扩展了许多原本无法实现的函数加密功能,并支持在多个Enclave上并行计算,提高了计算效率。此外,该方案基于SGX构建了可证明安全的应用程序,使得基于TEE辅助的系统也能提供形式化的安全保障。TAKESHITA[11]等人提出一种新的安全计算范式,其将同态加密的可扩展性与SGX的任意计算能力相结合,为大量用户的外包安全计算构建了一个功能更强大、更高效的系统。具体来说,该方案将TEE和同态加密组合成一个安全计算流水线,利用同态加密完成线性操作,并基于TEE的机密性来完成复杂的非线性操作,实现了功能丰富且性能高效的安全计算系统。OUYANG[12]等人提出SGX密码盒,其将对称密码算法封装到SGX的飞地中来构建灵活高效的非对称计算方法,在满足安全需求的前提下,实现了支持身份、属性、签名等功能的加密操作,并且实验结果表明该系统在性能上优于传统的非对称密码系统实现。针对同态密码算法噪声增长迅速的问题,WANG[13]等人基于REE-TEE协作构建了一个轻量级的全同态密码算法方案,在保护密钥的情况下允许密文快速消除噪声,使得该方案能在较小的密文尺寸和密钥上进行同态运算,提高了计算效率,减少了内存消耗。此外,该方案还尝试让内存访问模式完全独立于密钥信息来减少侧信道泄露。实验结果表明,基于TEE的混合加密方案在时间和空间上都有效改进了纯软件的同态加密方案。WANG[14]等人通过TEE和同态加密实现了一个能够完成高效自举的同态加密框架,并基于该框架实现了线性回归训练和卷积神经网络推理。具体来说,该方案将线性优化层放在飞地外部并用优化后的同态矩阵乘法加速同态计算,同时借助TEE刷新密文并计算非线性操作,避免同态加密因自举和复杂的非线性操作产生巨大开销,使得其在不可信环境中能够完成任意次数的密文乘法和非线性操作。COPPOLINO[15]等人提出一个基于云的工业控制系统的同态加密算法。为了减少因为加密带来的通信开销,该方案将加密操作放在TEE内部,并利用TEE外部的所有资源加速同态加密计算过程的同时,利用SGX的辅助实现了对同态加密噪声的去除和可验证。

上述融合机密计算的密码算法优化可以较好地提升传统密码算法的执行效率,但现有工作大多直接将机密计算的信任关系引入到密文计算中,并未考虑如何将信任关系与传统隐私保护计算的安全假设进行耦合。此外,大多数方案仍存在异构平台协作进行安全计算时数据中间状态和处理步骤增多而导致资源开销激增的问题。

1.1.2 融合TEE的安全多方计算

在传统的安全多方计算协议中,通常需要可信第三方实时在线,为各计算实体生成计算所需的安全参数,这带来了较大的计算和通信开销。将TEE技术引入现有安全多方计算框架中,能够利用TEE具有隔离执行环境的性质,将安全参数或将复杂的密文计算部署在计算实体本地进行,并优化计算,减少通信开销。

WU[16]等人对现有的TEE辅助的安全多方计算方案的安全性进行分析,根据计算实体对TEE的信任程度,TEE可分为完全可信、半可信以及不可信三种安全假设。之后,针对相应的安全假设,他们提出了相应的安全需求:在完全可信的TEE下,计算实体的数据能够以明文的形式进行计算;在半可信的TEE下,需要在TEE中应用安全多方技术;在不可信的TEE环境下,可以舍弃TEE,直接在REE环境中运行安全多方计算协议。WU[16]等人在此框架的指导下开发了相应的工具集,支持典型数据库查询语句的联合查询。FAN[17]等人基于可信芯片提出一种新型的文件去重框架,以解决传统去重过程中数据保密性不足的问题。该方案通过将数据的密文处理过程部署于可信芯片中执行,优化了计算开销和通信开销,并结合所有权证明协议验证用户所有权。此外,在引入可信芯片之后,安全计算过程不需要可信第三方的参与,保证了诚实且好奇的云服务器无法获得任何用户的敏感信息。LU[18]等人引入一种新的TEE安全假设(设备制造商可以被动窃取TEE内的数据或主动篡改TEE内运行的程序),并在此假设下设计了不经意传输和混淆电路协议。在其设计的协议中,提出了相关随机传送的概念,利用TEE生成各计算方所需的随机序列,优化了传统方案中传输随机序列所带来的开销。CHOI[19]等人通过将函数进行分区,在SGX飞地进行低敏感任务,并使用混淆电路与不经意传输对高敏感任务进行保护,提出了融合SGX与传统密码技术的混合两方安全函数评估方案,相较于传统混淆电路,性能得到显著提升。ZHOU[20]等人引入可信芯片代替传统安全多方计算中可信第三方的功能,通过在可信芯片中内置相同的随机数种子,生成一致的随机数并在各计算参与方本地完成乘法三元组的计算;采用单向通信消除乘法关键路径的通信瓶颈,并引入安全缓存重用数据减少通信量,提升了安全多方计算过程中的通信效率。韦韬[21]等人提出受控匿名化,通过将相对匿名化的数据限制在受控环境中,切断其与外部信息的关联,实现了近似绝对匿名化的安全性;此外,他们还提出了可信隐私计算技术,融合了可信计算、密码等多项技术,在安全、性能、可靠性、适用性和成本等方面达到了均衡。DONG[22]等人提出Hpcg框架,应对传统MPC离线阶段交互通信开销大及在线非线性操作效率低的问题。该框架使用轻量级可信执行环境在离线阶段将伪随机序列以及扩展算法生成Beaver三元组等各类相关性,过程中无需交互且通信量少;在线阶段参与方使用这些元素进行相关性计算。HU[23]等人提出一种通用MPC协议应对多方计算中对TEE信任不一致的问题。该协议在SUC(Simpler Variant of Universally Composable)框架下通过信任子图简化模块捕捉参与方信任差异,结合动态密钥更新技术实现跨平台信任传递;另外,还基于SwiftAgg+协议设计分层聚合策略将参与方分组,组内采用秘密共享技术完成局部聚合,跨组通过树形结构减少通信开销。

上述融合TEE的安全多方计算方案能够有效破解传统MPC对可信第三方的强依赖,并依托TEE的硬件级隔离特性显著降低密文传输与复杂计算的资源开销。但现有工作大多将TEE作为单一安全组件嵌入MPC流程,并未考虑如何将TEE的信任假设(如完全可信、半可信)与MPC的秘密共享、不经意传输等核心安全机制进行动态适配与深度耦合。此外,大多数方案仍存在跨平台协作场景下,因不同TEE架构的接口协议与指令集差异,导致多方参与节点的适配开发成本增加的问题。

1.2 TEE辅助的数据安全处理应用

近年来,在融合机密计算的密码算法与安全协议的基础上,将可信执行环境与密文计算结合,协同实现密文检索和机器学习中的隐私计算任务成为了一个主流研究方向,相关工作主要集中在基于TEE的辅助安全索引查询和更新、基于TEE的机器学习安全推理和基于TEE的机器学习模型安全训练3个方面。

1.2.1 TEE辅助安全索引查询和更新

基于密码学技术的数据外包查询方案能够保证查询过程中用户敏感信息的隐私性,但在现有传统基于密码学技术的外包查询框架中,通常需要两个服务器进行交互以完成查询过程中的复杂运算。现有工作通过引入TEE技术,解除双服务器模型在真实环境中应用的限制,实现密文外包查询算法的优化和性能提升。基于TEE的辅助安全索引查询和更新方面的代表工作如下。

FUHRY[24]等人结合B+和对称加密,通过引入TEE辅助云服务器执行密态数据查询,提出两个适应不同规模数据集的密态数据范围查询方案,并通过将密态B+树分配载入TEE来克服TEE存储空间受限的问题。该方案的安全性可达到现有可搜索加密方案的最优安全性,且查询效率与基于传统密码学的方案有较大提升。MISHRA[25]等人针对不经意查询,通过在服务器端引入TEE,减少Path ORAM方案中服务器和客户端的交互轮数,并设计双向不经意访问算法,实现了TEE和REE中数据的不经意访问。在此基础上,结合统计二叉树和平衡树设计索引,实现了有序数据的快速检索和更新。SUN[26]等人通过软硬件协同计算,提出了高效的密态关键字查询方案,该方案将密文数据载入TEE后进行明文上的关键字查询,能够支持数据的动态更新、并提供了丰富的查询函数,并能抵抗各种安全攻击。此外,该方案还设计了不经意关键字搜索算法,抵抗TEE中侧信道攻击引起的查询隐私泄露问题。基于真实数据集的实验结果表明该方案的查询效率与明文关键字查询相当。JIANG[27]等人针对联合关键字查询,提出一种基于TEE-aware的索引结构,具有比当前的联合关键字查询索引更小的存储开销,实现了最坏情况下亚线性的复杂计算。该方案通过将该索引结构部署到TEE,设计了查询结果模式信息隐私保护的联合关键字查询方案。ZHENG[28]等人针对垂直分布数据集上进行相似性查询的隐私泄露问题,设计了一种利用TEE提升数据隐私保护能力的方案,通过将敏感计算任务委托到部署在云端的TEE中进行,实现了在不暴露原始数据的前提下完成多方数据联合查询,有效避免了传统加密计算方法带来的高开销问题。YANG[29]等人提出一种基于TEE的关系型数据库系统,将整个数据库管理逻辑和敏感数据加载到TEE中运行,利用TEE提供的硬件级隔离保障数据在存储和查询过程中的机密性与完整性。该方案在保证强安全性的同时,具备更低的运行开销和更高的查询性能,并支持复杂查询任务。LU[30]等人基于TEE提出一种面向嵌入式系统的安全SQLite方案,通过将SQLite的核心查询执行和敏感数据加载到运行在TEE中的受信任区域,从硬件层面隔离未授权访问。

在外包查询过程中,现有工作通过引入TEE提升密态数据查询的效率与安全性。一方面,通过将密态索引加载至TEE中执行,显著降低传统密码学方法在查询效率和存储开销上的瓶颈;另一方面,针对TEE存在的存储空间有限、侧信道攻击等问题,提出了索引分配策略、不经意访问与不经意搜索算法等改进措施以增强隐私保护。总体而言,在引入可信执行环境后,现有工作在突破“效率与安全难以兼顾”的传统困境上展现了优势,但在可扩展性、侧信道防护与系统兼容性等方面仍需进一步研究。

1.2.2 TEE辅助机器学习安全推理

在机器学习推理服务中,为确保模型数据以及样本数据的安全性,通常借助同态加密、安全多方计算等技术构造密文环境下的数据推理方案。然而,由于同态加密和安全多方计算难以支持复杂非线性操作,通常将其采用多项式逼近的方式转化为线性运算,这带来了额外的计算开销和推理精度上的损失。将TEE引入现有密文下的机器学习推理过程,能够有效解决上述问题。基于TEE的机器学习安全推理方面的代表工作如下。

NATARAJAN[31]等人提出基于TEE和同态加密的安全机器学习推理方案,通过TEE确保服务提供商模型参数的机密性,通过同态加密确保用户待预测向量的隐私性。在卷积神经网络和手写数据集中进行的测试证明该方案优于基于纯密码的安全两方推理协议。LI[32]等人提出一种基于外包模型的机器学习即服务(Machine Learning as a Service,MlaaS)框架,在该框架中,服务提供方不需要保持一直在线的状态,同时,考虑到TEE的计算资源受限,部署到TEE中的仅为一些轻量级的计算。该模型可用于朴素贝叶斯以及超平面预测两种机器学习算法,并在SGX环境中进行了实现,验证了其在真实环境中的可用性。CHEN[33]等人设计了一种端到端的神经网络合法性验证框架DeepAttest,并利用TEE开发了进行验证计算和比对的核心模块。此外,他们还引入了一套全面的指标来描述DNN验证的性能,实现了在安全级别和验证开销之间的权衡。LEE[34]等人利用SGX技术设计了一个隐私保护的预测系统,通过模型权重即用即加载和并行处理的方法来最大化SGX内安全预测的性能,并在Linux和Windows平台上进行了部署和测试。BIAN[35]等人将复杂的非线性操作放在了可信执行环境中,利用前向神经网络中的简单控制流,设计了可信硬件中的密封、解封和飞地算法,提升了TEE抵抗基于内存和功率的侧信道攻击的能力,有效提升了安全推理方案的准确率和安全性。XIAO[36]等人提出一个混合CNN推理框架,利用SGX减少近似操作来加速基于同态加密的推理,在理论上提高了推理的准确性和效率。同时利用SGX直接分发密钥,避免了引入额外的可信第三方,提高了框架的可扩展性和灵活性。为保护模型推理过程中模型的机密性,ZHANG[37]等人遵循已有方案利用TEE来混淆模型,然而现有方案由于TEE内部随机数的脆弱性导致模型容易遭到窃取攻击。为解决这一问题,他们提出了新的模型混淆方法,即用充分随机化和相互覆盖混淆来保护模型权重从而实现对模型知识产权的保护。此外,TEE也被用于确保推理结果的正确性。由于推理过程可能会遭到执行篡改攻击导致结果出错,XU[38]等人提出一个面向CPU-GPU集成边缘设备的容错深度学习推理框架,并引入基于算法的验证实现了容错深度学习推理。该方案通过增强随机化来增强对微小扰动的检测能力,并将验证过程迁移到TEE中,而推理过程则利用GPU加速,在保证推理结果正确性的同时还能利用TEE提升推理效率。JIAN[39]等人考虑到TEE有限的内存,基于TrustZone提出一种面向设备端的安全高效的大模型推理方案,通过对执行前的资源进行分析,来静态分配适当的安全内存大小和线程数量,提供适应TrustZone执行模式的底层机制进行大模型的可信推理。

上述TEE辅助的机器学习安全推理方案有效提升了数据安全融合分析的效率,但大多数方案并未考虑引入TEE后实体数据管理域扩张导致的数据安全边界不清晰问题,此外这些方案仅仅利用TEE辅助完成非线性等复杂计算,当数据管理域扩张引起的TEE安全定义发生变化时如何实现高效安全的线性、非线性运算仍有待解决。

1.2.3 TEE辅助机器学习模型安全训练

与机器学习推理服务相比,机器学习模型的训练过程更为复杂,这是因为机器学习模型的训练过程中需要多轮的前向和后向传播计算,并且每轮计算中包含大量的非线性操作。因此,基于传统的同态加密或安全多方计算技术,难以实现纯密文环境下的机器学习模型训练方案。近年来,基于TEE的机器学习模型安全训练架构被广泛提出,其代表性工作如下。

ZHANG[40]等人提出一种可扩展的协作机器学习系统,通过引入零和掩码与分层聚合两种方法,以隔离处理数据的代码和处理模型的代码。处理数据的代码在训练Enclave运行并向数据所有者公开,处理模型的代码在聚合器Enclave运行且对模型所有者保密。这一设计同时保证数据所有者和模型拥有者敏感数据的安全性。TRAMER[41]等人提出Slalom框架,该框架针对深度神经网络,将用户的敏感训练样本数据在TEE进行随机扰动后传输至常规操作系统REE中进行计算,能够在深度神经网络的训练过程中,对用户的敏感样本数据进行有效保护。随后,为进一步提升计算性能,HASHEMI[42]等人针对深度学习提出DarKnight框架,该框架基于矩阵扰动技术,将敏感训练样本在TEE中通过随机矩阵进行加密,并将密文训练样本集外包至多个GPU进行深度神经网络的并行训练,该方案进一步提升了异构计算的性能,并通过密码学技术实现了GPU之间共谋攻击的防御。ZHANG[43]等人基于TEE提出一种可验证的联邦学习方案,在该方案中,模型训练在参与方本地的GPU中进行,但会在训练过程中将每一步训练的中间结果生成一个哈希值,构建成Merkle树。TEE通过随机抽样验证这些哈希值,结合承诺机制和动态数据选择防止作弊,确保训练过程可信。MO[44]等人提出PPFL方案,通过在TEE中逐层训练DNN网络,在训练时仅加载当前层相关数据,克服了TEE的内存限制,还使用了多层分组训练以优化效率。并通过实验验证了PPFL抵抗数据重构、属性推理和成员推理攻击的能力。LAW[45]等人提出一种隐私保护的XGBoost安全训练和推理系统,在可信硬件的帮助下构建安全执行环境,保护每一方数据的隐私以及计算的完整性。该方案使用数据忽略算法增强Enclave的安全性,使内存访问模式仅依赖公开信息,与输入数据无关,可防止由于访问模式泄露引起的对Enclave的访问侧信道攻击。MO[46]等人对神经网络的结构进行分析,发现神经网络的预测结果主要与最后几层的参数有关。在此基础上,提出TEE资源受限场景下的神经网络模型部署框架,通过仅将神经网络模型的最后几层部署于边缘节点的TEE中,达到模型机密性隐私保护的效果,并在TEE中执行模型最后几层的模型训练与预测操作。ASVADISHIREHJINI[47]等人提出GINN框架以应对训练模型的完整性问题。该框架将模型训练分为可信部分和不可信部分,将不可信部分放入REE中,并通过模型裁剪限制参数的单次更新幅度,并结合随机认证技术检测攻击,以此限制攻击者改变参数的能力,有效保证训练模型的完整性。YAZDINEJAD[48]等人提出方案以解决TEE内部计算资源受限的问题。客户端在本地完成模型训练的非敏感计算部分,并将中间参数加密后传输至服务端的TEE中。TEE仅需验证参数完整性并执行关键聚合操作,减少了其内部计算负载。该方案还采用哈希校验和动态密钥更新技术,确保客户端上传的参数在传输过程中无法被恶意篡改。

现有TEE辅助的机器模型安全训练方案主要围绕隐私保护、完整性保障与性能优化展开。在隐私保护方面,通过数据扰动、分层聚合与部分模型部署等方法有效降低了敏感信息的泄露风险;在完整性保障方面,借助Merkle树、随机认证及动态校验等技术确保训练过程可信;在性能优化方面,分层训练、异构计算及多GPU并行外包成为突破TEE资源受限的重要途径。总体来看,TEE在深度神经网络、联邦学习及传统模型中展现出较强的适用性。但如何进一步平衡安全性与效率,并抵御侧信道与共谋攻击,仍是未来研究的关键方向。

2 TEE与密态计算融合的安全模型

现有工作将各类软硬件资源进行整合,实现了可信执行环境的安全边界扩展与传统密文计算技术的优化与加速。但在TEE与传统数据安全处理融合方面仍面临一些挑战。首先,传统的数据安全计算通常基于数学困难问题或信息论,其安全性经过严格的形式化证明,得到了比较广泛的认可。TEE的安全性通常基于用户、计算提供者、数据处理者以及安全容器提供者之间的信任关系,而在密码学中的安全假设中,数据所有者对数据处理者通常为半诚实模型,即不是完全可信。因此,现有大多数方案直接将TEE引入传统的数据安全处理方案中,存在安全假设与安全边界定义不清晰的问题,缺乏统一的TEE与密态数据融合计算的安全模型。因此,本章从密码学与TEE结合的角度出发,在多方协作计算的场景下,详细探讨密码学与TEE的数据安全模型。首先划分并界定了密码学与TEE混合计算方案中的实体,随后定义了各实体的能力与职责,并提出了安全模型下的3个主要假设:半可信假设(即半诚实假设)、恶意假设与完全可信假设。

2.1 实体及其敌手能力定义

密码学与TEE混合计算方案涉及的实体大致可分为TEE硬件提供商、密码服务提供商和计算实体,如图3所示。

TEE硬件提供商(TEE Provider,TP):TP指的是提供TEE硬件的芯片制造商,如Intel、ARM、AMD等。TEE 的引入使得密码服务提供商以及计算实体能够在远端设备上创建出安全的隔离执行环境,支持和优化密文基础上的多方计算。

密码服务提供商(Cryptographic Service Provider,CSP):CSP负责密码系统的初始化和密钥生成,为其他实体所用。通常情况下,CSP可以是参与计算任务的计算实体,或是经计算实体协商选择的第三方。CSP的主要职责是构建和维护基于密文的安全计算环境,并能在计算实体中创建飞地来辅助密文计算任务。

计算实体(Computing Entity,CE):CE为执行具体计算任务的多个实体,包括计算参与方和云服务器等。计算参与方,如移动用户或数据中心等,需要执行有隐私保护需求的分布式数据协作分析或数据聚合任务。而云服务器,如阿里云,华为云等,通常为参与者提供计算外包服务,在实际应用中是一个可选实体。在多方协作计算场景中,每个CE都能通过在其他CE的TEE中创建飞地来支持基于密文的计算。

2.2 安全假设定义与示例

在界定了密码学与TEE混合计算方案中的实体后,接下来,本文详细描述在多方协作场景下所采纳的安全模型,该模型主要包括半可信假设、恶意假设和完全可信假设三种情况。此模型关注的是数据在传输过程中的安全性,而非传统的物理侧信道攻击,如功耗、电磁分析等。在描述安全模型的具体细节之前,首先对实体的数据管理域(Data Management Domain,DMD)进行定义。

定义1 DMD 在结合了密码学与TEE的多方协作计算中,一个实体的DMD是指该实体可以直接访问和控制的数据计算空间。DMD的大小代表了实体在数据安全管理方面的自治能力。在传统以密码学为基础的方案中,实体的DMD通常是指它的常规处理环境REE。而在密码学与TEE结合的计算框架下,实体的DMD除了包含其REE,亦扩展到在TEE中建立的飞地。

基于上述DMD的定义,本文进一步阐释TEE与密态计算融合的安全模型的几个关键要点。首先,作为 TEE 硬件和配套软件环境的供应方,TP的诚实性是至关重要的。因为TEE是基于硬件的安全解决方案,并且本文不考虑硬件攻击以及对应的防御措施,所以本文假定TP是完全可信的,TEE中不存在基于硬件的后门或其他攻击行为;其次,本文详细定义了半可信假设、恶意假设和完全可信假设。

半可信假设:在此假设下主要考虑被动攻击。CSP按照协议初始化密码系统,提供可靠的安全参数。在计算过程中,CE将严格遵守协议执行计算任务,且不对数据进行篡改。然而CE对其他实体的敏感数据是好奇的,可能尝试通过监听获取其他实体的敏感数据。针对半可信假设下CE的攻击能力可区分为以下两种情况:1)CE无法发起侧信道攻击,只能靠获取REE侧或TEE侧的信息来推断其他实体的敏感数据,针对这种情况可以通过同态加密、差分隐私等传统隐私保护技术进行防御。2)CE拥有发起如基于缓存攻击、推测执行攻击等软件侧信道攻击的能力,从而获取TEE内部其他实体的敏感数据,针对这种情况可以通过缓存分区、地址空间随机化等相关技术进行防御。

恶意假设:在此假设下,除了半可信环境下的被动攻击,还要考虑可能对计算过程完整性造成影响的主动攻击。在计算过程中,恶意的CE可能会故意篡改或丢弃特定的计算步骤,甚至引入有害数据来操控结果,这对整个计算过程的完整性和安全性构成了威胁,针对这种情况可以通过数据一致性检测、零知识证明等相关技术进行防御。

完全可信假设:在此假设下参与方不存在任何主动攻击或者被动攻击行为。在计算过程中,CSP和CE将严格遵守协议执行计算任务。CSP严格按照协议初始化密码系统,提供可靠的安全参数。CE严格执行计算任务,不对数据进行任何窃听或者篡改。

本节所提的TEE与密态计算融合的安全模型是对传统密码学安全模型的扩展和补充,探索了TEE与密码学结合的可能性。图4展示了在这种半可信假设下的数据流转和保护机制。例如,对于参与者P2,其数据在被发送至其他实体的DMD(如P1的REE,P1的TEE或云服务器的REE)时,需要在计算过程中施加妥善的保护措施。在P1的数据传送给P2的REE或云端的REE时,应当在密文状态下进行计算。同时,当P1的数据流入其建立的飞地时,能以明文形式进行处理或存储。

本文所提模型将TEE视为“半可信”实体,主要源于以下两个在实际部署中可能会面临的问题。首先,在TEE应用中,代码只有在发布并经过用户检查后才能被信任。然而,模型提供者(Model Provider,MP)的代码作为关键的知识产权,在模型推理过程中通常需要保密。为防止代码泄露,安全区域无法提供远程证明供用户验证代码。在此情况下,若模型提供方通过后门或隐写技术对安全区域内的数据进行监控,则极易窃取用户数据。此外,即使将代码提供给用户,随着模型提供者数量的不断增加,用户也难以对代码进行审计。其次,由于TEE部署在CSP内部,这意味着在某些应用中,云服务提供商能够获取TEE产生的输出结果。如果代码设计存在缺陷,可能会引入安全漏洞,使云服务提供商能够推理出敏感信息。因此,一旦模型提供者或云服务提供商是半可信的,他们可以轻易地获取TEE中的敏感数据。

本文描述了一种简单的示例来说明上述信任挑战可能导致的实际安全风险。在这种场景下,半可信的MP和CSP可能通过相应的被动攻击获取敏感数据。具体而言,其包含两个参与方P1和P2以及一个带有可信执行环境的云服务器。P1在云服务器的TEE内部署一个比较两方输入大小的功能函数,并将比较结果秘密共享返回给P1和P2。P1和P2的输入值都是加密数据,需要同时在TEE中完成解密之后进行比较。REE侧通过ECALL调用TEE完成数据比较,鉴于P1为“诚实但好奇”方,TEE在返回比较结果时,应P1要求对返回给P1的数据格式进行了隐写处理,即将P2所提供密文的解密结果嵌入到返回给P1的结果中。通过这种类型的攻击,P1获得了TEE内部的其他参与方的敏感数据,且未影响任务的计算过程,即P1既获得了秘密共享分片,又获得了P2的敏感数据。由于TEE内部的代码由P1提供,因此很难向P2证明代码逻辑的安全性,导致这类攻击难以被P2检测。

2.3 融合安全模型下的具体方案

在TEE与密态计算融合的安全模型下,已有工作在半可信安全假设下构造方案,实现对密码算法和数据安全处理过程的优化,代表工作如下。

XU[49]等人在TEE与密态计算融合的安全模型下,针对神经网络推理场景,提出一种基于半可信TEE的不经意神经网络预测方案,确保了用户输入、输出以及模型代码本身的安全,系统模型图如图5所示。

考虑到模型代码的知识产权,TEE的推理代码往往不会公布给广大用户,这使得依赖远程证明的代码不再可靠性。这意味着代码发布者可能在TEE内部通过监听等方法窃取内部流转的数据,从而造成数据的隐私泄露。因此,为保护用户数据的隐私,该论文假设TEE是半可信的。同时,基于TEE有限的内存,该方案利用CKKS加密方案设计了安全高效的卷积神经网络安全计算协议,并且这些协议能够友好地支持单指令多数据技术。此外,该方案还提出了一种查找表优化方法来加速卷积层和池化层的计算,并利用基于条件转移指令的不经意函数来消除分支结构进而减少基于分支预测的侧信道攻击。实验结果表明该方案可以较低的计算和通信成本有效实现卷积神经网络推理。

WANG[50]等人在TEE与密态计算融合的安全模型下,针对联邦学习场景,提出TEE辅助的逻辑回归联邦学习方案,实现了数据拥有者的本地更新与训练服务器全局模型的双向隐私保护,系统模型如图6所示。

考虑到全局模型作为互联网企业的重要资产,其参数通常不会对外公开,而依赖远程证明的可信执行环境在代码不可见情况下仍可能遭受内部恶意操作威胁。因此,为兼顾模型知识产权与数据隐私,该方案假设TEE为半诚实参与方。同时,针对联邦学习中数据分布特点,该模型在TEE的辅助下结合同态加密与随机掩码技术,针对Sigmoid和Softmax等核心训练函数,构造了REE-TEE协作的安全计算协议,支持非线性运算的安全计算,从而在密文上实现了全局模型的更新过程。

该方案利用REE-TEE协作计算去除了传统方案中多项式逼近带来的精度和性能损失,提升了逻辑回归联邦学习的安全性和计算效率。同时结合了随机掩码技术保证半可信的TEE无法获取被保护的隐私信息。

3 未来研究方向

本文针对目前TEE与数据安全处理融合相关领域的研究工作,进行了全面的汇总与分析,从研究背景与发展现状、代表性工作进展等方面进行了详细描述,并在此基础上,提出了TEE与密态计算融合的安全模型。最后,融合机密计算的数据安全处理仍需要进行更深一步的研究。

1)软硬协同的数据安全计算架构设计。未来可深入研究TEE与密文计算(如同态加密、MPC、差分隐私等)在系统架构层面的高效融合。TEE适合处理控制逻辑和低复杂度的数据密集型计算,而密文计算则适用于无需信任硬件的高敏感任务。研究方向包括如何在单一工作流中高效切换两类计算模式,如何设计统一的接口与数据格式支持协同执行,以及在复杂应用(如大模型隐私训练)中进行任务粒度划分与负载均衡,提升系统整体效率与安全性。

2)安全性增强与形式化验证。虽然TEE提供可信的运行环境,但在现实中仍受到侧信道攻击、回滚攻击、微架构漏洞等威胁。与此同时,传统密态计算方案也存在主动或被动攻击等多种安全威胁。未来研究可探讨将TEE的运行流程与密文计算过程联合建模,进一步细化软硬协同计算的威胁模型与安全性定义,并在此基础上,结合现有安全证明方法,对所构造的方案进行形式化的安全证明和验证。

3)性能优化与自适应调度。TEE与密文计算的计算模型、通信开销与资源需求截然不同,因此需要新的调度策略来动态适配不同任务。未来研究方向包括开发安全感知的调度框架,结合任务特征(如数据规模、延迟容忍度、安全等级)智能分配至TEE或密文计算模块,设计缓存机制与异步通信策略减少切换开销以及探索基于硬件监控的调度优化,提升混合执行流程的整体吞吐量与响应时间。

4)应用驱动的融合实践。推动融合技术的实用化仍需落地到具体应用场景中。未来研究可面向医疗诊断、金融风控、智能制造、政务数据共享、大模型安全等领域,构建实际系统原型并进行大规模测试与评估。重点研究系统可部署性、兼容性、监管合规性与端到端安全性上,实现在确保数据流通合法合规的前提下,将融合方案集成至现有数据平台,支撑各计算实体的数据保护需求。

4 结束语

本文针对融合机密计算的数据安全处理技术进行了概述、分析和总结。首先,本文系统梳理了可信执行环境和传统数据安全技术的特点和发展历程;其次,从融合TEE的密码算法与安全协议和TEE辅助的数据安全处理应用两个方面对现有代表性工作进行了总结和介绍,并在此基础上进行形式化并构建出多方协作的TEE与密态计算融合的安全模型并介绍了该模型下初步的方案设计;最后,简要讨论了融合机密计算的数据安全处理未来可能的发展方向。

友情链接: