联邦学习是顺应大数据时代和人工智能技术发展而兴起的一种协调多个参与方共同训练模型的机制.它允许各个参与方将数据保留在本地,在打破数据孤岛的同时保证参与方对数据的控制权.然而联邦学习引入了大量参数交换过程,不仅和集中式训练一样受到模型使用者的威胁,还可能受到来自不可信的参与设备的攻击,因此亟需更强的隐私手段保护各方持有的数据.分析并展望了联邦学习中的隐私保护技术的研究进展和趋势.简要介绍联邦学习的架构和类型,分析联邦学习过程中面临的隐私风险,总结重建、推断两种攻击策略,然后依据联邦学习中的隐私保护机制归纳隐私保护技术,并深入调研应用上述技术的隐私保护算法,从中心、本地、中心与本地结合这3个层面总结现有的保护策略.最后讨论联邦学习隐私保护面临的挑战并展望未来的发展方向.
With the era of big data and the development of artificial intelligence, Federated learning (FL) emerges as a distributed machine learning approach. It allows multiple participants to train a global model collaboratively while keeping each of their training datasets in local devices. FL is created to break up data silos and preserve the privacy and security of data. However, there are still a large number of privacy risks during data exchange steps, where local data is threatened not only by model users as in centralized training but also by any dishonest participants. It is necessary to study technologies to achieve rigorous privacy-preserving approaches. The research progress and trend of privacy-preserving techniques for FL are surveyed in this paper. At first, the architecture and type of FL are introduced, then privacy risks and attacks are illustrated, including reconstruction and inference strategies. According to the mechanism of privacy preservation, the main privacy protection technologies are introduced. By applying these technologies, privacy defense strategies are presented and they are abstracted as 3 levels: local, central, local & central. Challenges and future directions of privacy-preserving in federated learning are discussed at last.
近年来, 大数据驱动的人工智能迸发出巨大潜力, 在金融、医疗、城市规划、自动驾驶等多个领域完成了大规模复杂任务学习. 机器学习作为人工智能的核心技术, 其性能和隐私性也广受关注. 传统的机器学习需要由服务商收集用户的数据后集中训练, 但是用户的数据与用户个体紧密相关, 可能直接包含敏感信息, 如个人年龄、种族、患病信息等; 也可能间接携带隐含的敏感信息, 如个人网页浏览记录、内容偏好所隐含的用户政治倾向. 如果这些敏感信息在收集过程中被服务商泄露或者利用, 将直接威胁用户的人身安全、个人名誉和财产安全. 即便服务商没有直接公开用户数据, 集中训练后发布的模型也可能因为受到隐私攻击而泄露参与训练的数据. 随着隐私问题受到的关注程度日益提高, 用户分享数据的意愿越来越低. 与之矛盾的是, 人工智能技术却必须依靠大量数据收集和融合, 如果不能获取完整丰富的信息来训练模型并发展技术, 人工智能应用的发展将受到严重限制.
在数据孤岛现象与数据融合需求的矛盾逐渐凸显的背景下, 联邦学习(federated learning, FL)应运而生. 2017年, Google公司首次提出了联邦学习的概念[
尽管联邦学习避免了将数据直接暴露给第三方, 对于数据隐私有天然的保护作用, 但是其中依然存在大量隐私泄露的风险.
● 首先, 联邦学习需要交换中间参数协同训练, 可能泄露隐私. 与集中式学习不同, 联邦学习训练过程需要交换大量中间参数, 其所携带原始数据会暴露在所有参与训练的角色面前, 带来泄露的风险. 例如, 已有研究表明, 可以通过梯度还原部分原始数据[
● 其次, 不可靠的参与方加剧了隐私泄露的风险. 联邦学习中, 各个参与方由于地理、设备等条件不同, 通信内容的有效性和身份的真实性都难以确认, 因此一旦出现不可靠的参与方攻击, 极易泄露隐私.例如, 半诚实的参与方能够根据合法获取的中间参数推断出其他参与方的标签或数据; 而恶意的参与方更进一步, 能够通过上传精心设计的有害信息诱导其他参与方暴露更多自身数据, 或者不遵守隐私协议进而影响全局的隐私性.
● 此外, 训练完成的模型也面临着隐私泄露的风险. 即便联邦学习的过程中参数没有泄露, 直接发布训练所得的模型依然存在极大风险. 这种风险来自机器学习自身的脆弱性. 在训练中, 模型提高准确性依赖于对数据样本的规律挖掘. 但是研究者[
由此可见, 不加保护的进行联邦学习, 训练中涉及的众多参与者的数据都将面临泄露的风险. 而数据一旦泄露, 不仅隐私泄露者面临严重损失, 参与者间彼此信任合作的联合训练模式也将难以为继.
解决联邦学习信息泄露问题迫在眉睫. 然而, 联邦学习中数据分布复杂、应用场景丰富且需要多次数据交换, 这些因素为隐私保护带来一系列挑战.
● 第一, 联邦学习的训练场景多样且需求复杂, 现有的隐私保护方法无法通用. 已有的集中式机器学习隐私保护研究以中心服务器诚实为前提, 仅考虑模型发布后可能受到的攻击, 没有针对内部攻击者的解决方案. 而且现有算法大多针对单一的集中式训练场景, 没有考虑多个参与方、多种架构、多种数据分布方式下的数据交换和模型协同训练的情况. 因此, 设计适应不同场景和不同需求的隐私保护算法, 同时抵御外部和内部攻击, 是联邦学习隐私保护的重要挑战.
● 第二, 联邦学习中参与方的可信程度低, 潜在的攻击角度多, 对隐私保护算法的鲁棒性要求更高. 这里, 鲁棒性指模型容忍恶意攻击稳定运行的能力. 联邦学习中, 参与者一旦发起攻击, 能够观察到更多的中间参数, 甚至能够篡改参数影响训练过程, 隐私防御的难度远高于外部出现的攻击. 而参与者之间如果共谋, 可能获取更多敏感信息. 因此, 提高隐私保护算法的鲁棒性, 减少隐私算法中对参与者的可信程度的假设, 是联邦学习隐私保护面临的难题.
● 第三, 联邦学习本身通信不稳定, 模型计算代价高, 因而对隐私保护机制的通信量和复杂度要求严格. 现实场景下的联邦学习所面临的复杂松散的网络结构导致终端通信不稳定, 在此基础上的隐私保护算法难以简化. 而复杂的隐私保护算法将带来更高的计算量、更大通信代价, 进一步制约联邦学习的训练效率. 研究高效率、轻量级的联邦学习隐私保护算法, 降低额外开销, 是联邦学习隐私保护必须面对的挑战.
● 第四, 联邦学习中参数维度高、数据分布不均, 难以在提供隐私保护的同时保持模型的可用性. 联邦学习中间参数的维度与模型结构和输入数据维度相关, 参数维度往往极高, 造成了极大的隐私开销.此外, 联邦学习的用户数量不定且数据集大小不一, 如何在平衡不同数据集的同时保护隐私, 也是一个巨大挑战.
综上所述, 更加精细的隐私策略设计、更加精确的隐私预算分配、更加适应数据交换的隐私协议构建, 是联邦学习隐私保护进一步发展必须面对的议题. 而明确现有的隐私问题和保护手段, 是技术发展的基础. 联邦学习的基础——机器学习的隐私攻击和防御已经被充分调研[
另外, 已有学者调研了联邦学习隐私保护的现状, 但由于思路与本文不同, 侧重的方法和文献也不相同. Lyv等人[
本文第1节介绍联邦学习的架构和类型, 以及相应场景下的训练方式. 第2节分析联邦学习面对的隐私泄露风险来源, 总结具体的攻击策略. 第3节介绍多种隐私保护技术原理, 并将其归纳为信息模糊、过程加密两种隐私保护机制. 第4节调研隐私保护技术在联邦学习中的应用, 涵盖本地保护、中心保护、中心与本地结合这3种保护策略, 并对每种策略展开更加详细的阐述. 第5节讨论现有不足并展望未来方向.
联邦学习的一般定义为[
则称此联邦学习模型具有
区别于传统的分布式机器学习, 联邦学习具有如下特点.
(1) 各个参与方的训练集非独立同分布. 各个参与方仅掌握局部信息, 其分布与全局不一定相同; 各个参与方仅掌握整个数据集的部分属性及标签信息, 且各方之间属性和标签可能不完全重叠.
(2) 各个参与方的训练集大小可能不平衡. 某些参与方可能由于其规模、影响力等因素掌握更多数据.
(3) 参与方数量不定. 参与者数量可能很少, 例如只有几个企业交换数据集; 也可能极多, 如训练涉及数以万计的App使用者.
(4) 通信受限. 与分布式相比, 联邦学习的架构更为松散, 参与的设备可能存在频繁掉线、通信缓慢等情况, 因此联邦学习的通信代价同样受到极大关注.
根据这些特点, 学者为联邦学习设计了不同的架构方式和学习类型.
常见的联邦学习架构为客户-服务器. 典型的客户-服务器架构由一个中心服务器和多个持有数据的客户端组成. 被广泛采用的联邦平均FedAvg[
当没有中心服务器时, 联邦学习采用另一种常见架构: 端对端的网络架构[
为了下文中概念统一、表述清晰, 本文将客户-服务器中的服务器称为中心服务器; 将客户-服务器中的客户端和端对端架构中的参与训练终端统称为终端; 所有参与训练的服务器、终端统称为参与方. 训练过程中发送的梯度、模型参数、嵌入式表示等, 统称为中间参数. 上述两种典型架构如
联邦学习中的典型架构
根据参与方的样本分布情况, 联邦学习按照数据的划分情况可以分为3种类型: 横向联邦学习、纵向联邦学习、迁移联邦学习. 不同的数据的划分方式需要的训练方式和中间参数不同, 也为隐私泄露的风险和保护方式带来影响.
横向联邦学习中, 各个参与方持有的数据特征相同, 但掌握的样本不同. 例如, 几个不同城市的医院可能掌握着不同病人的情况, 但是由于具备相似的医疗手段, 医院获取属性的属性相同. 横向联邦学习中典型的方式之一是第1.1节所描述的联邦平均算法FedAvg, 包括梯度平均和模型平均两种类型[
而纵向联邦学习则针对相反的情形, 即各个参与方持有的数据特征不同, 但掌握的样本相同. 例如, 同一个城市中的医院和银行都接待过同一个市民, 保留着该市民的就诊记录或资金状况. 显然, 医院和银行获取的数据属性完全不同, 但是所持有的样本ID是重叠的. 纵向联邦学习首先需要参与方对齐相同ID的样本, 然后, 各个参与方在对齐的样本上分别训练本地模型并分享参数. 不同架构同样都适用于纵向联邦学习, 但由于数据的纵向分布, 参与方之间的依赖程度更高, 模型需要更加精细地设计. 纵向联邦学习已应用于线性回归[
上述两种类型都是比较理想的情况, 现实生活中, 大部分参与方所持有的数据, 在特征和样本ID上的重叠都比较少且数据集分布不平衡. 针对这样的情形, 迁移学习被应用到联邦学习中来. 迁移学习作为一种有效的学习思想, 能够将相关领域中的知识迁移到目标领域中, 使得各个参与方共同学习得到迁移知识. 以两方迁移学习为例[
目前, 纵向和迁移联邦学习的隐私保护算法研究还不成熟, 且保护方式与横向联邦学习场景类似. 为了表述简洁, 下文中调研的隐私保护算法若无特别说明, 即为横向联邦学习场景.
尽管联邦学习不直接交换数据, 比传统的集中式机器学习训练有了更高的隐私保障, 但联邦学习本身并没有提供全面充分的隐私保护, 依然面临着信息泄露的威胁. 模型面临的隐私泄露风险来自模型训练自身的脆弱性和攻击者的强大能力: 模型训练过程中, 独特架构和训练阶段决定了隐私泄露的位置和时机; 攻击者的角色和能力, 决定了隐私泄露的内容和程度. 而攻击者依据自身特性所采取的攻击策略, 则进一步影响攻击者的能力, 从而影响模型隐私泄露的风险. 理清隐私泄露的风险, 才能为联邦学习隐私防御找到总体方向.
为了在下文中更好地描述隐私攻击, 我们首先建立联邦学习攻击模型.
● 根据角色, 攻击者分为内部和外部: 内部攻击者包括掌握训练的中间参数并且参与训练过程的终端和中心服务器; 而外部攻击者包括掌握模型发布的参数及查询接口但没有参与训练过程的模型使用者. 与外部攻击者相比, 内部攻击者掌握模型的更多信息, 攻击能力更强.
● 根据可信程度, 攻击者分为半诚实角色和恶意角色: 半诚实角色指参与方严格遵守训练协议和流程, 仅根据合法获取的信息分析推断, 对于训练结果没有影响; 恶意角色指参与方不遵守协议, 在参与过程中恶意篡改数据、注入模块, 诱导目标泄露隐私并影响训练结果.
● 根据攻击模式, 攻击分为被动和主动: 被动攻击指攻击者仅观察或访问模型获取信息; 主动攻击指攻击者篡改数据或模型, 参与并影响训练过程. 需要说明的是, 攻击模式与可信程度并非完全对应. 存在少数主动攻击者能够在修改上传参数诱导目标泄露隐私的同时不影响联邦训练目标, 诚实正确地完成训练任务.
● 根据攻击者知识, 攻击分为白盒攻击和黑盒攻击: 白盒攻击指攻击者掌握模型的相关信息, 包括数据的分布和统计信息、模型训练完成的结构参数或模型训练过程中的中间参数; 黑盒攻击指攻击者对相关信息一无所知, 仅有请求查询的权限.
联邦学习包含参数上传、下发、参数传输、模型发布等多个阶段, 其中, 参数上传、下发为客户-服务器架构所特有的阶段, 参数传输为端对端架构所特有的阶段, 模型发布为两种架构都有的阶段. 每个阶段隐私泄露的位置和内容不同, 威胁隐私的攻击者角色也不相同. 研究联邦学习不同阶段隐私泄露风险, 有助于为隐私保护提供清晰的思路和方向. 隐私泄露风险来源的对比见
隐私泄露风险来源
联邦学习自身脆弱性 | 潜在攻击者 | ||||
训练架构 | 训练阶段 | 泄露位置 | 泄露内容 | 属性 | 内外 |
客户-服务器 | 参数下发 | 中心 | 全局参数 | 终端 | 内部 |
模型发布 | 训练完成的模型 | 外部使用者 | 外部 | ||
参数上传 | 本地 | 本地参数 | 中心服务器 | 内部 | |
端对端 | 参数传输 | 其他终端 | |||
模型发布 | 训练完成的模型 | 外部使用者 | 外部 |
在客户-服务器架构下, 训练分为3个阶段.
● 第1阶段, 本地(终端)训练后, 上传本地参数给中心服务器. 此阶段的潜在攻击者多为中心服务器. 中心服务器根据收集的本地参数能够发起重建攻击, 恢复目标终端的原始数据; 或者发起属性推断攻击, 推断目标终端的数据中是否含有某些敏感属性.
● 第2阶段, 中心服务器聚合各个终端的参数处理后, 再次下发全局参数. 此时的潜在攻击者是不可信的终端. 终端能够根据全局中间参数发起攻击重建某个类别样本(generic sample), 或推断某条记录的敏感属性是否存在, 进而根据训练集的共同特征推断拥有该记录的个体的情况, 例如训练集是艾滋病患者基因数据, 如果该个体属于该训练集, 则一定也患有艾滋病.
● 第3阶段, 模型训练完成, 由中心服务器发布模型. 一般的发布方式包括直接将模型部署在用户端, 或提供API访问接口两种. 此时的潜在攻击者是外部使用者. 不可信的外部使用者能够根据模型的参数或模型的预测结果发起推断攻击、重建攻击或参数提取攻击[
在端对端架构下, 训练分为两个阶段:
● 第1阶段, 本地(终端)训练后, 将本地参数传输给下一终端. 攻击者为不可信的接收终端. 终端接收本地参数后, 同样能够发起重建攻击或属性推断攻击, 致使本地的原始数据泄露.
● 第2阶段, 模型训练完成后, 终端若发布模型, 则面临与客户-服务器架构同样的外部攻击; 若仅供内部使用, 则无须考虑.
需要说明的是, 联邦学习的隐私攻击主要由内部参与方发起. 与外部攻击者相比, 内部攻击者具备更强的能力, 不仅可以在训练过程中通过直接获取数据交换中的特征嵌入式表示、梯度和模型参数等发起攻击, 还能够通过替换样本、更改梯度甚至修改损失函数等方式影响模型的训练过程, 诱导目标终端暴露更多隐私信息, 完成推断攻击和重建攻击. 联邦学习为了协同训练和共享模型需要更多参与者, 却缺乏与之对应的身份确认机制和诚信保障, 难以防范“内部”泄露. 传统的集中式机器学习隐私保护能够抵御外部攻击, 却没有抵御内部攻击的能力. 为了理清联邦学习面对的风险, 本文首先介绍外部攻击作为基础, 重点针对其特有的内部隐私攻击展开分析.
根据上述的隐私泄露风险和攻击者的能力, 研究者设计了不同的联邦学习架构及阶段下可能的隐私攻击, 并通过实验展现了这些攻击对敏感数据的巨大威胁. 隐私攻击者包括参与模型训练的内部角色和未参与模型训练仅能接触发布模型的外部角色. 攻击者采取的主要策略有重建攻击和推断攻击: 重建攻击中, 攻击者根据掌握的中间参数以及模型信息恢复部分训练数据; 推断攻击中, 攻击者根据中间参数和发布参数推断训练集中是否含有特定的记录. 内部以及外部攻击者采用上述策略对联邦学习发起隐私攻击, 获取训练集的敏感信息. 其中, 内部隐私攻击方案的总结参见
内部隐私攻击具体方案
文献 | 攻击目标 | 攻击者能力 | 攻击策略 | 优缺点 | 攻击者知识 | |||||
攻击对象 | 架构 | 数据分割 | 角色 | 可信度 | 模式 | 策略 | 优点 | 缺点 | 背景知识 | |
[ |
全局梯度 | 客户- |
横向 | 终端 | 半诚实 | 被动 | 类别 |
能够攻击类别、 |
无法重建 |
其他标签 |
[ |
局部梯度 | 服务器 | 测试集 | |||||||
恶意 | 主动 | |||||||||
[ |
半诚实 | 被动 | ||||||||
[ |
半诚实 | 被动 | 样本 |
对攻击者 |
无法攻击 |
无 | ||||
端对端 | 终端 | |||||||||
[ |
客户- |
服务器 | ||||||||
端对端 | 终端 | |||||||||
[ |
客户- |
服务器 | ||||||||
[ |
客户- |
横向/ |
服务器/ |
|||||||
[ |
预训练模型 | |||||||||
[ |
客户- |
横向 | 服务器 | 属性 |
能够推断与训练 |
无法推断敏感 |
有监督 |
|||
主动 | ||||||||||
全局梯度 | 终端 | 被动 | 成员 |
攻击准确性较高; |
无法获取完整 |
|||||
[ |
||||||||||
恶意 | 主动 | 无监督 |
||||||||
半诚实 | 被动 | |||||||||
局部梯度 |
重建攻击(reconstruction attack)指攻击者根据训练中间参数、模型的参数或者请求查询所得输出, 恢复参与训练的数据集中的信息. 根据攻击者角色, 重建攻击分为外部和内部攻击: 外部重建攻击是在模型训练完成并发布后, 外部使用者发起的攻击; 内部重建攻击则是在模型训练阶段, 内部参与方发起的攻击.
外部重建攻击中, 攻击者仅能掌握模型的查询结果或模型发布的结构和参数, 因此只能不断试探模型的输出结果, 通过调整输入数据使输出值向预期方向靠拢. Fredrikson等人[
外部攻击以模型输出以及发布的最终参数为依据, 重建整个数据集的泛化样本(generic sample), 难以获取详细的敏感信息. 此外, 借助有效的泛化、降低输出精度等手段, 即可在很大程度上抵御这类攻击. 相比之下, 联邦学习的内部重建攻击具有更加丰富的知识背景, 能够以中间参数为依据发起攻击. 中间参数不仅与用户数据紧密相关, 而且在迭代中多次暴露. 内部攻击者能够据此重建特定用户的具体敏感信息. 在主动攻击的情况下, 还能够通过修改中间参数、上传有害信息来影响模型的训练过程, 甚至诱导隐私泄露. 具体的内部重建攻击包含两种类型: 类别重建和样本重建.
内部类别重建是重建攻击中的常见类型, 该攻击通过重建某个类别的通用样本模式获取目标类别(target class)中的敏感信息. 例如, 在训练图片识别分类器时, 训练集的一个类别中包含的图片主体是一致的, 则类别重建能够恢复目标类别中主体的共性信息. Hitaj等人[
但是, 类别重建仍然存在一些局限: 首先, 它不能还原目标类别中的不同样本, 只适用于一个类别中的样本都类似的场景, 所能获取的敏感信息有限; 其次, 基于生成对抗网络的重建方式对攻击者的计算能力要求较高, 在手机终端等场景下并不适用.
内部样本重建相比于内部类别重建是一种更加精确的攻击方式, 能够恢复出一个类别中的多个样本, 提取每个样本的敏感信息. Zhu等人[
其中,
其中,
显然, 只有
● 模式重建攻击针对有固定模式(如基因序列)的文本, 攻击者尝试根据嵌入式表示恢复文本中的模式.考虑到攻击模型的输出是敏感词汇, 大量词汇将导致模型更加庞大, 作者采用分治法将攻击模型拆分成一系列子攻击. 例如, 攻击用户的生日可以分为年、月、日这3个子攻击, 则总参数量将由O(|
● 而关键词重建攻击中, 由于公开数据集与终端数据集的关键词差异, 可能导致领域迁移时不匹配、攻击准确性低. 为此, 作者采用对抗学习的思想, 训练模型学习统一的领域不变(domain-invariant)隐式表示, 在使不同领域文本的编码尽可能相似的同时, 完成敏感词重建任务. 该方法首次将嵌入式表示中的丰富信息还原, 为重建攻击提供了新的角度.
样本重建攻击不改变全局模型的正常训练, 且不需要额外构建新的模型, 恢复出的样本的信息更加丰富.已有研究[
攻击者根据模型的中间参数或预测结果, 推测给定用户的某条记录或某个属性是否属于该模型的训练集, 称为推断攻击(inference attack). 在第2.2.1节的重建攻击中, 隐私被直接定义为参与训练用户的数据, 攻击针对的是用户的全部特征或者某个敏感属性. 而Shokri等人[
外部推断攻击中, 攻击者根据模型的预测结果推断给定记录的归属[
目前, 有效的外部推断攻击仅能根据输出的置信度完成推断, 但是外部攻击者一般难以获取训练集的近似样本, 实际攻击能力有限. 相比之下, 内部推断攻击可依据的攻击目标非常丰富, 梯度、样本的嵌入式表示等所携带的信息量都高于输出结果的置信度. 通过衡量中间参数的差异、中间参数的分布和变化过程, 内部攻击者不仅能够推断出目标成员是否存在, 还能推断出目标用户的数据中是否含有目标敏感标签.
内部成员推断中, 攻击者能够判断给定的目标用户是否参与过模型训练. Melis等人[
由上述算法可见, 降低输出精度、提高模型的泛化能力, 只能部分地提高模型的隐私性, 并不能完全抵御成员推断攻击. 这是由于隐私泄露并不仅仅来自过拟合, 也来自机器学习模型的记忆能力. 由于机器学习模型的复杂性, 训练样本在模型的结构类型以及参数上留下了痕迹, 使得模型参数和中间梯度中包含了大量的原始样本信息, 面对设计更精细的攻击时仍然存在风险.
内部属性推断中, 攻击者试图判断某个敏感属性是否存在于目标终端的训练集中. Melis等人[
仅仅通过中间参数, 内部攻击者就能提取大量隐私信息, 其原因在于中间参数与输入数据的联系十分紧密. 嵌入式表示通常是记录的低维向量表示, 每个维度都与某些维原始数据直接相关, 如果终端发送的是记录的嵌入式表示, 则有可能直接泄露信息; 如果终端发送的是梯度或模型参数, 同样有可能间接泄露信息, 且泄露的信息更加丰富. 这是因为梯度与特征成比例, 梯度的值能够反映本次迭代所用的训练数据的特征. 此外, 由于梯度及模型参数的维度很高不能得到充分泛化, 高维的梯度可能记住更多与模型训练目标无关的信息, 带来极大的隐私泄露风险.
内部重建攻击与内部推断攻击都通过窃取或篡改训练的中间参数, 获取与参与训练的原始数据相关的信息. 但二者的攻击目标不同: 重建攻击目标为某个终端数据, 而推断攻击的目标为所有终端的训练集信息. 我们将攻击依据的主要信息称为攻击对象. 重建攻击以本地参数为主要攻击对象, 通过训练生成对抗网络或者直接梯度下降的方式生成样本的表示; 推断攻击则以全局参数为攻击对象训练成员或属性分类器, 根据辅助集区分成员或属性是否存在. 而当攻击者没有辅助集时, 依然能够通过聚类算法或影子模型间接完成推断.由于内部攻击者掌握的中间参数蕴含着丰富的信息, 半诚实参与方和恶意参与方都能对模型发起攻击. 恶意的参与方能够诱导攻击模型泄露更多信息, 使得攻击模型收敛更快、准确性更高.
外部重建攻击和外部成员推断攻击则通过获取公开的模型参数或输出获取与训练集相关的信息: 外部重建攻击的目标为部分训练集, 而外部成员推断的目标为训练集中的成员信息. 外部重建攻击对象包括模型的预测结果以及模型结构, 而外部推断攻击一般以模型的预测结果为对象发起攻击. 与内部攻击相比, 外部攻击可用的信息较少, 能够获取的攻击结果细节有限、准确性也更低.
与此同时, 重建攻击与推断攻击紧密相关. 样本重建能够为提供推断攻击更加丰富的背景知识. 当攻击者发起推断攻击但缺乏辅助集时需要借助影子模型, 而影子模型的所需要输入数据可以由样本重建攻击提供. 此外, 重建攻击中隐含着目标记录或属性存在于训练集中的假设, 因此, 重建攻击隐含着推断攻击的目的. 隐私攻击策略的对比见
隐私攻击策略
隐私攻击 | 重建 | 推断 | |||||
攻击者角色 | 外部 | 内部 | 外部 | 内部 | |||
类型 | 训练集重建 | 类别重建 | 样本重建 | 成员推断 | 成员推断 | 属性推断 | |
攻击目标 | 生成部分 |
生成 |
生成 |
判断记录 |
判断记录 |
判断属性 |
|
攻击者 |
半诚实 | ● | ● | ● | ● | ● | ● |
恶意 | ○ | ● | ○ | ○ | ● | ● | |
攻击对象 | 本地参数 | ○ | ● | ● | ○ | ● | ○ |
全局参数 | ○ | ● | ○ | ○ | ● | ● | |
模型结构 | ● | ○ | ○ | ○ | ○ | ○ | |
预测结果 | ● | ○ | ○ | ● | ○ | ○ | |
背景知识 | 无或辅助集 | 无 | 无或者辅助集 | 辅助集 |
上述攻击策略的主要流程如
隐私攻击策略流程图(客户-服务器架构)
隐私攻击策略流程图(端对端架构)
一方面, 研究联邦学习的隐私风险和攻击策略有助于明确隐私保护的程度, 例如, Jagielski等人[
隐私保护技术是防御敏感信息泄露的技术, 能为信息的隐私提供严格的可量化的保护. 隐私保护的技术多种多样, 但总体分为两大方向: 信息模糊机制和过程加密机制. 信息模糊机制面向数据内容本身, 通过处理数据或参数使数据内容不易被关联到用户身份上; 过程加密机制面向数据传输的过程, 通过改变数据交换的形式使得传输过程中的数据不被识别. 两类机制使用的场景不同, 但都能在一定程度上抵御上述隐私攻击.
信息模糊机制的目的在于保护数据内容本身. 通过添加噪声等方式扰动原本特征清晰、极易识别的记录, 使得单条记录失去其独特性、隐藏在大量数据之中, 避免了记录来源泄露、记录所包含的敏感值的泄露. 同时, 经过精心设计的信息模糊能够使数据依然维持着原有的分布特点, 从而够支持模型的训练, 在一定程度上保证了数据的可用性. 信息模糊的手段包括中心化差分隐私、本地化差分隐私等技术.
2006年, Dwork提出了差分隐私保护(differential privacy, DP)[
其中, 相邻数据集指相差最多一条记录的两个数据集. 非负参数
特别地, 当
上述差分隐私的定义在理论上保证了隐私, 实现则需要通过添加噪声的方式扰动数据. 具体实现机制包括拉普拉斯机制[
上述两种机制主要用于中心化差分隐私的实现, 其中, 拉普拉斯机制针对连续的数值型数据, 指数机制保护离散的非数值型数据. 二者都借助全局敏感度设计噪声规模, 在聚合统计时, 需估计统计值边界和隐私泄露的边界.
当收集数据的第三方不可信时, 中心化差分隐私就无法保护本地记录的隐私. 要使每一个记录或参数的隐私在本地得到保护, 需要本地化差分隐私技术(local differential privacy, LDP).
本地化差分隐私通过保证任意两条记录的输出相似性来保护用户隐私, 使得隐私保护的过程从数据收集方转移到用户本地, 避免数据收集中的泄露.
本地化差分隐私中, 除了可以采用常规的扰动机制之外, 更为普遍的是随机响应机制.
为保证其满足
由于差分隐私具有后处理性[
基于差分隐私技术实现的机器学习隐私保护方法主要包括输出扰动[
差分隐私通过添加噪声将记录隐藏在整个数据集之中, 使得相邻数据集难以被分辨, 这与成员推断攻击的设定不谋而合. 因此, 差分隐私对于成员推断攻击有着很好的防御效果, 但是对于属性推断攻击、重建攻击的防御能力目前尚缺乏严格的证明. 此外, 尽管通过压缩隐私预算、增加噪声规模能够达到更高的隐私保护效果, 但是过多的噪声也会影响模型训练的准确性, 这是基于差分隐私的扰动方法不可避免的困境. 已有研究发现: 联邦学习上的差分隐私保护, 模型拟合度(fitness)与训练集大小的平方和隐私预算的平方成反比[
过程加密的目的在于保护数据交换的过程. 通过密码学工具、安全多方计算等技术掩盖数据的交换过程, 只有特定的参与方才能获取协议指定的数据内容, 其余参与方在不破坏协议的情况下无法获取交换中的数据. 过程加密技术需要确保数据交换过程的安全性并控制计算代价. 能够保护隐私的过程加密的技术很多, 本文介绍两种联邦学习中常用的技术: 同态加密和秘密共享.
同态加密(homomorphic encryption, HE)[
1) (
2)
3)
4)
目前, 主要的同态加密方法都是基于误差还原问题(learning with errors, LWE), 即已知一个矩阵
秘密共享(secret sharing, SS)[
目前的秘密共享方案主要包括Shamir方案[
在实际应用中, 同态加密技术在实际应用中还存在诸多障碍, 如计算效率低、存储开销大等性能问题. 此外, 尽管存在性能相对较好的部分同态加密算法(如Paillier[
上述的隐私保护机制和技术采用的原理不同, 有其各自适用的场景. 信息模糊机制通过添加噪声扰动数据提供保护, 形式灵活便于部署, 不增加计算和通信负担, 适用于大规模协同训练场景. 得益于差分隐私的后处理性, 发布后的数据可以得到持续的保护. 但是添加噪声会给模型带来一定的准确性损失, 其中本地化差分隐私由于提供的隐私性更高, 模型的准确性损失更大. 相比之下, 过程加密机制借助同态加密、秘密共享等技术为数据的运算或发送过程加密, 能够在不损害模型准确性的前提下提供严格的隐私保护, 适用于参与方较少、对结果准确性要求高的训练场景. 但是由于密码学技术本身的限制, 同态加密计算量大、秘密共享通信量大, 协同训练的效率受到影响, 且对客户端在线与否有更高的要求. 由此可见, 隐私保护机制和技术各有长短, 研究者需要根据具体的模型、使用场景选择合适的技术、尝试结合不同的技术, 设计出高效、实用、严格的保护方案. 具体的隐私保护机制和技术对比见
隐私保护机制和技术对比
隐私保护机制 | 技术 | 原理 | 优点 | 缺点 |
信息模糊 | 中心化 |
中心提供噪声, |
计算效率高; 通信开销低; |
一定的可用性损失; |
本地化 |
本地提供噪声, |
计算效率高; 通信开销低; |
较大的可用性损失 | |
过程加密 | 同态加密 | 数据加密, |
隐私保护严格 | 无法处理复杂运算; |
秘密共享 | 数据分片, 多方 |
计算效率较高; |
计算效率低; |
基于上述隐私保护机制和技术, 学者们为联邦学习设计了多种保护措施. 尽管这些保护措施设置在训练的不同阶段, 但隐私保护的对象是明确且清晰的: 中心或本地. 中心是指中心服务器所掌握的中间参数和训练完成的模型; 本地则包括终端所掌握的数据和本地模型参数. 二者是联邦学习主要的隐私泄露位置. 因此, 本节以隐私保护的对象为线索, 将联邦学习隐私保护算法分为3种主要类型: 中心保护、本地保护、中心与本地同时保护策略. 中心保护策略以保护中心服务器所掌握的参数为目标, 考虑模型的使用者带来的威胁; 本地保护策略以保护本地所掌握的参数为目标, 考虑中心服务器带来的威胁; 中心和本地同时保护策略以保护所有参数为目标, 同时考虑模型使用者和中心服务器所带来的威胁.
3种保护策略的区别如
隐私保护策略的信任边界: 以客户-服务器架构为例
中心保护策略针对客户-服务器架构, 关注联邦学习中心服务器面临的隐私泄露风险, 保护中心服务器获取和下发的全局中间参数, 并通过保护该参数间接为发布的模型提供隐私保护. 若不加保护地公开全局中间参数, 攻击者能够据此发起重建攻击或推断攻击; 公开训练完成的模型参数, 攻击者能够发起外部攻击, 均会导致本地数据泄露. 为降低模型被攻击的风险, 常用的保护方法有扰动和知识迁移.
扰动(perturbation)方法是指通过差分隐私等技术, 在模型的训练过程中添加噪声扰动, 使得发布的模型在保持可用性的同时得到保护.
在集中式场景中, 隐私保护对象为单条记录. 扰动方法被用于确保攻击者无法准确地获知一条记录存在与否, 对于模型的输出影响较小. 但是针对一条记录的保护, 在联邦学习场景下是不够的. 例如, 在收集用户的输入记录训练语言模型时, 用户的敏感信息会出现在不止一条记录中且彼此相关. Melis等人[
但是, 一个用户的输入数据其实是一组向量, 每个敏感度不同, 直接剪裁的方式不仅增加训练迭代次数、降低模型准确性, 也浪费了一部分隐私预算. 并且Geyer没有对梯度的中位数做任何保护措施, 也存在一定的隐私泄露风险. McMahan等人[
上述方法中, 本地参数在上传时不添加任何保护, 噪声均由中心服务器添加, 参数的聚合结果满足中心化差分隐私定义. 但是中心服务器可能会忽略噪声的添加, 致使终端隐私泄露. 更为安全的方式是中心化的差分隐私在本地实现, 即在本地添加噪声, 使得聚合结果满足中心化差分隐私. Shokri等人[
上述方案中, 参数的聚合过程满足中心化差分隐私, 但是在下发时, 由于全局参数求和取均值, 导致噪声被稀释, 无法再为下发的参数提供相同的保护水平. Wei等人[
终端训练的模型接触了本地的敏感数据, 直接使用其参数或者模型存在极大的隐私泄露风险. 一种思路是采用知识迁移(knowledge transfer)的思想[
Hamm等人[
Papernot等人[
教师隐私聚合模型(PATE)架构
知识迁移方法的优势在于发布的模型不直接接触敏感数据, 而由投票机制形成的聚合结果既隐藏了接触过敏感信息的教师模型, 又提供了相对稳定的输出结果.
本地保护策略适用于联邦学习的所有架构. 该策略关注终端面临的隐私泄露风险, 保护终端向中心服务器上传的参数或向其他终端传输的参数. 终端的真实参数一旦被其他攻击者获取, 攻击者能够据此发起内部重建攻击, 导致参与训练的数据泄露. 因此, 在终端公开参数之前添加隐私保护而不是盲目信任第三方, 是一种安全、有效的做法. 常用的保护方法包括扰动和加密.
本地化扰动(local perturbation)是指通过差分隐私等技术扰动终端模型的训练过程、保护本地的参数、降低其被攻击的风险的方法.
在端对端架构中, 终端直接发布经过中心化差分隐私保护的模型, 能够为本地数据提供严格的隐私保护. Zhao等人[
在客户-服务器架构中, 终端发送经过本地化差分隐私技术保护的参数, 能够为本地数据提供隐私保护.然而, 传统的本地化差分隐私技术仅针对一个数值, 直接将本地化差分隐私保护技术应用于机器学习中高维梯度的扰动, 将带来过大的噪声干扰, 使得模型准确性严重下降. 为适应联邦学习高维参数的扰动需求, 研究者以经典的本地化差分隐私技术为基础, 设计了灵活的隐私预算分配机制和优化的扰动输出值, 以提高模型的准确性. Wang等人[
梯度或者模型参数的维度通常较高, 直接发送本地扰动参数将带来巨大的通信量, 并且扰动高维参数也会引入大量的噪声, 影响模型的准确度. 因此, 在保护隐私的同时降低通信代价、提高训练效率, 成为研究者关注的焦点. 最直观的方法是仅选择部分参数发送. Shokri等人[
加密(encryption)方法通过采用密码学工具为数据的传输过程提供强有力的隐私保证, 同时不破坏数据原有的值和分布. 常见的本地加密方法包括同态加密和安全聚合.
Aono等人[
梯度同态加密系统架构
为了避开同态加密技术带来的过高计算代价, Google团队提出了在一种客户-服务器架构下高效的安全聚合方案[
考虑到实际情况中, 终端掉线将导致随机数无法抵消、聚合失败, 终端需将DH种子用秘密分享技术分享给其他用户, 确保至少
其中, PRG为伪随机数生成器.
上述的安全聚合模型为本地参数的发送提供了严谨的隐私保护, 但是终端之间能够相互通信的假设, 在实际应用中并不具有一般性. Heikkilä等人[
中心和本地同时保护策略适用于联邦学习的客户-服务器架构. 该策略同时关注中心处和本地处的数据隐私, 具体包括终端上传的参数和中心服务器下发的参数、发布的模型. 只有中心和本地同时得到保护, 联邦学习才能抵御内部和外部攻击. 由于该策略涉及多个训练阶段, 往往需要借助扰动、安全多方计算、安全混洗等多种技术协同为训练过程中的数据提供保护. 如何有效结合多种隐私保护技术降低隐私损失、保持模型质量, 是中心和本地同时保护策略面临的关键问题. 合适的保护策略能够以较低的代价抵御内部和外部攻击, 形成对联邦学习从本地数据训练到模型发布全阶段的完整保护.
采用本地扰动方法虽然能够保护本地参数的隐私, 并且为之后的训练的模型提供后续(post-processing)的隐私保护, 但是对数据可用性的影响较为严重. 而中心扰动方法则依赖于服务器完全可信的假设, 在很多场景下并不实用. 中心与本地共同扰动, 为模型的本地和中心都提供了所需的隐私保护.
Avent等人[
Zhao等人[
安全多方计算技术(secure multi-party computation, SMC)需要密码学工具支持, 在无可信第三方的情况下构造协议, 根据各方的秘密输入共同计算函数, 完成训练. 尽管安全多方计算能够保护各个参与方的参数交换过程, 但单纯的安全多方计算依赖于大量密文计算、安全证明, 严重制约计算效率, 且无法保护模型发布阶段的隐私. 因此, 许多研究将安全计算与扰动相结合, 分别保护本地和中心的隐私.
Pathak等人[
(1) 中心服务器获得数据集最小的终端的扰动下标
(2) 中心服务器和终端合作生成满足差分隐私的噪声: 各个终端
(3) 终端采用秘密共享技术发送噪声值并上传参数, 使得中心服务器仅能获得扰动后的聚合结果
此外, 由于本方法基于输出扰动机制, 仅与数据集大小
上述方法虽然利用安全计算隐藏了本地扰动的噪声值, 但是由于协议复杂、输出扰动对目标函数的要求严格, 不具有通用性. Truex等人[
除了在安全多方计算协议上的探索以外, 噪声的添加方式和隐私的分析方式也受到关注. Hu等人[
安全混洗(shuffling)为联邦学习的客户-服务器架构提供了隐私保护的新思路. 通过打乱终端提交的数据的顺序, 服务器仅能获取记录的乱序集合, 既达到了匿名的效果, 又保持了数据的准确性. 匿名是隐私保护的基础思想, 通过切断数据内容与数据提供者身份的关联性, 为数据提供隐私保护. Choudhury等人[
安全混洗的提出源于2017年, Google公司率先设计了编码-混洗-分析框架(encode-shuffle-analyze, ESA)[
编码-混洗-分析(ESA)框架
(1) 编码器(encoder): 编码器部署在终端, 本地通过分片、随机扰动或嵌套加密等方式处理原始记录后发送给混洗器. 分片能够避免记录因为某些特殊属性值的组合而被识别, 具体包括属性分片、发送分片、建模分片[
(2) 混洗器(shuffler): 混洗器是独立于中心服务器的第三方服务器, 一般假设为半诚实服务器. 混洗器负责去除与身份相关的信息, 为收集的记录添加群ID, 待数据量达到一定阈值
(3) 分析器(analyzer): 分析器部署在中心服务器上, 在ESA框架下, 一般假设为不可信服务器. 分析器对数据解密或无偏估计、存储、聚合并淘汰后分析和发布.
ESA框架中, 由本地编码器和第三方混洗器联合为数据隐私提供保证, 抵御分析器和模型使用者发起的攻击. 在去除记录独特性、匿名用户身份的基础上, 该框架结合本地化差分隐私或者密码学工具后, 能够在保护隐私的同时保持数据的可用性. 上述方法在ESA系统中已经模块化, 每个模块都可以利用隐私保护机制进一步优化, 是一个可扩展的隐私保护方案.
安全混洗的具体实现方式很多. Kwon等人[
安全混洗的提出, 加强了隐私保护的效果. 尽管安全混洗本身只能提供匿名级别的隐私保护, 但是它与隐私技术的结合却能为本地和中心的数据提供强有力的保护. 目前, 基于安全混洗的隐私理论主要有两类: 一类基于本地化差分隐私和下采样放大理论, 一类基于中心化差分隐私和分割混合技术(split-mix). Erlingsson等人[
安全混洗协议可根据编码器对于输入数据的编码形式分为单消息协议和多消息协议两种, 其中, 单消息协议指编码器将一个输入编码为一条数据, 多消息协议指编码器将一个输入编码为多条数据并发送. Cheu等人[
安全混洗目前仅在联邦学习的经验风险最小化模型上有简单应用[
中心、本地、中心与本地同时保护这3类隐私保护策略既有联系又有区别, 而这3类隐私保护策略中蕴含的扰动、迁移、加密、安全计算与扰动结合、安全混洗等5类隐私保护方法又有各自的优缺点. 对比这3类隐私保护策略和5类保护方法的保护的对象、能够抵御的攻击、采用的技术、对模型训练的影响, 能够帮助我们为特定场景下的联邦学习设计合适的保护算法.
首先, 3类隐私保护策略的保护对象和能够抵御的攻击不同.
(1) 中心保护策略的保护对象是中心服务器处的训练中间参数和发布的模型参数. 但此策略下本地参数缺乏保护, 无法抵御中心服务器发起的重建攻击. 基于扰动的中心保护策略中, 记录级别的差分隐私保护无法抵御成员推断攻击, 这是因为隐私定义在了记录而不是用户上.
(2) 本地保护策略的保护对象是终端的模型参数或即将公开的本地参数, 能够抵御联邦学习中特有的内部隐私攻击. 该策略能够为本地参数提供严格的保护, 避免本地数据被中心服务器通过重建攻击获取. 但是对于全局参数和训练完成的模型则缺乏保障. 其中, 基于扰动的本地保护策略全局模型可用性得不到保障; 而基于加密的本地保护策略只针对数据的内部交换, 聚合的参数和发布的模型不受任何隐私保护. 因此, 内部攻击者能够根据全局参数发起推断攻击, 外部攻击者则能够根据模型参数发起重建攻击和推断攻击, 窃取训练集敏感信息.
(3) 上述两种策略都着重针对训练过程中的单个阶段提供保护, 没有作出整体性考虑. 中心与本地同时保护策略的目标则同时考虑了本地参数和全局参数, 能够同时抵御重建攻击和推断攻击, 但依赖特定的场景假设. 基于混合扰动的策略在中心服务器不可信时依然可能泄露隐私, 而其他扰动方案没有具体的实践应用; 基于安全计算和安全混洗的扰动的方案则往往需要多种前提假设, 例如中心服务器半诚实、终端之间不共谋、终端半诚实等假设. 面对恶意攻击者主动篡改数据、影响训练过程的攻击方式更加脆弱, 且受制于密码学工具所带来的高昂计算代价和通信代价.
其次, 5种隐私保护方法采用的技术和对模型训练的影响不同.
(1) 扰动方法基于中心化或本地化差分隐私技术实现, 在3类保护策略中都有应用. 扰动方法能够灵活地满足大部分隐私需求, 几乎不会带来额外的通信开销. 但是扰动机制仍然会降低模型准确度, 增加迭代收敛轮数.
(2) 迁移方法基于迁移学习思想和差分隐私技术, 主要应用于中心保护策略. 迁移方法的思想接近数据生成, 通过迁移学习将原始数据与训练数据分离达到隐私保护的效果. 迁移方法能够处理客户端模型不同的场景, 并且可以通过复杂模型向简单模型迁移, 提高中心模型的训练和预测效率. 但是这种方法需要在扰动待标注的训练集, 对模型的准确性影响较大. 而随着训练轮数的增加, 隐私开销也将急剧升高.
(3) 加密方法基于同态加密及秘密共享技术, 主要应用于本地保护策略、中心与本地同时保护策略中. 加密方法能够为训练过程中加密的对象提供严格的保护, 但是对于模型的后续发布无效. 由于同态加密技术仅支持整数运算、有限次乘法运算等限制, 基于同态加密的保护方法在集中式机器学习中计算准确度不高, 但在联邦学习中, 中心服务器仅对密文做聚合运算的场景下, 却可以达到较好的训练效果. 然而, 同态加密带来的高昂的计算、存储开销却限制了该方法的应用. 而秘密共享技术下的保护方法虽然降低了计算的代价, 通信代价却大大升高.
(4) 安全计算与扰动结合的方法基于安全多方计算技术, 需要中心化差分隐私的配合才能完成保护. 二者能够实现对模型从训练到发布的全周期保护, 但是扰动对于模型的准确性带来一定影响. 而基于密码学的安全计算不仅为模型带来极高的计算量和通信代价, 复杂的协议也缺乏通用性.
(5) 安全混洗方法基于加密以及差分隐私技术, 主要应用于中心与本地同时保护策略中. 安全混洗能够在保护本地数据隐私的同时, 在中心模型上达到较低的统计误差, 在可用性-隐私性上较为平衡. 但是该方案目前只能完成较为简单的数据统计, 在高维参数和模型训练的准确性上有待改善. 此外, 该方案侧重于加强保护中心服务器发布的模型, 当中心的隐私需求得到满足时, 由于隐私放大的作用, 本地隐私保护程度可能并不够, 需要额外的密码学工具保护. 因此, 为中心和本地同时挑选合适的隐私参数, 也是该方法需要面临的问题.
最后, 尽管目前的隐私防御策略和方法存在着种种不足, 但还是富有指导意义. 中心与本地同时保护的策略能够为联邦学习提供全周期的保护, 但是需要以中心及本地策略为基础; 而中心和本地在满足一定的信任条件或可用性要求时, 也有其适用场景. 中心扰动方法无法防御内部攻击, 但是迁移方法、安全计算与扰动结合方法、安全混洗方法都需要以中心扰动为基础设计, 中心扰动方法的研究价值依然很高. 本地扰动方法的可用性较低, 但是与安全混洗结合后, 其隐私性和可用性都得到大幅度提升. 而本地加密方法则为安全计算和安全混洗提供了一定的指导. 综上所述, 扰动方法和加密方法为迁移、安全计算、安全混洗提供了具体的细节实现, 而迁移、安全计算、混洗则为扰动和加密方法的隐私性、可用性带来提升. 算法的对比详见
隐私保护算法对比
文献 | 保护 |
架构 | 保护 |
保护 |
保护 |
技术 | 优点 | 缺点 | 抵御 |
[ |
中心 | 客户- |
中心 | 中心 |
扰动 | 中心化 |
准确性 |
需中心 |
外部 |
[ |
|||||||||
[ |
|||||||||
[ |
|||||||||
[ |
|||||||||
[ |
本地 | ||||||||
[ |
|||||||||
[ |
|||||||||
[ |
|||||||||
[ |
本地和 |
外部攻击、 |
|||||||
[ |
中心 | 中心 |
知识 |
迁移 |
可向简单 |
隐私开销与 |
外部 |
||
[ |
|||||||||
[ |
|||||||||
[ |
|||||||||
[ |
本地 | 端对端 | 本地 | 本地 |
扰动 | 中心化 |
通信开销低、 |
准确性低 | 内部重建、 |
[ |
|||||||||
[ |
|||||||||
[ |
客户- |
本地特征 | 本地化 |
所有 |
|||||
[ |
|||||||||
[ |
本地梯度 | ||||||||
[ |
|||||||||
[ |
|||||||||
[ |
|||||||||
[ |
本地化 |
||||||||
[ |
本地化 |
||||||||
[ |
加密 | 同态加密 | 准确性高、 |
计算开销高、 |
内部 |
||||
[ |
秘密共享 | ||||||||
[ |
|||||||||
[ |
同态加密 |
||||||||
[ |
|||||||||
[ |
中心和 |
中心和 |
部分本地 |
扰动 | 中心化 |
全阶段保护、 |
通用性 |
外部 |
|
[ |
本地和 |
中心化 |
所有攻击 | ||||||
[ |
本地数据集大小 |
安全 |
安全多方 |
全阶段 |
计算开销高、 |
外部攻击 | |||
[ |
|||||||||
[ |
本地梯度 |
所有攻击 | |||||||
[ |
|||||||||
[ |
|||||||||
[ |
|||||||||
[ |
|||||||||
[ |
|||||||||
[ |
匿名 | ( |
方案简单 | 存在隐私泄露隐患 | |||||
[ |
安全 |
安全混洗 | 全阶段保护、 |
计算开销高、 |
|||||
[ |
|||||||||
[ |
安全混洗 |
||||||||
[ |
|||||||||
[ |
|||||||||
[ |
|||||||||
[ |
|||||||||
[ |
|||||||||
[ |
|||||||||
[ |
|||||||||
[ |
安全混洗 |
不同于传统的集中式机器学习, 联邦学习由于自身架构和训练方式的独特性, 面临着更多样的隐私攻击手段和更迫切隐私保护需求. 现有的联邦学习隐私保护算法在技术、平衡性、隐私保护成本和实际应用中还存在诸多不足之处. 明确这些问题和挑战, 才能展望联邦学习隐私保护未来发展的机遇和方向.
尽管对联邦学习隐私保护方案的探索已经不少, 但是目前, 方案中所应用的隐私保护技术却无法满足联邦学习独特的隐私保护需求. 由于针对联邦学习的隐私保护程度不明确、目标不清晰、方式单一, 导致方案提供的保护或者过于严格进而影响模型的性能, 或者程度弱且保护对象模糊, 或者保护目标单一难以达到隐私性与可用性平衡.
目前的隐私保护技术还存在以下问题.
(1) 现有的隐私技术保护程度不明确. 利用差分隐私保护隐私的方案虽然能够明确隐私开销, 但是隐私开销与用户的隐私需求、抵御攻击的能力大小之间缺乏定量关系. 例如, 用户级别的差分隐私虽然能够保护一个用户的多条记录, 但是对其防御能力缺乏量化验证, 用户级别和记录级别保护技术的保护能力也就无法进一步分析.
(2) 现有的隐私技术防御目标不清晰. 现有的隐私保护技术虽然都以保护数据为主要任务, 但是与联邦学习隐私防御的目标不能完全匹配: 利用差分隐私技术提供隐私保护的方式本质上是保证训练集的成员记录不被识别, 因此差分隐私理论仅能抵御成员推断攻击, 对于重建攻击、属性推断攻击的抵御能力尚缺乏明确的证明; 利用密码学工具提供隐私保护的方式无法抵御大部分内部隐私攻击, 必须借助差分隐私技术共同完成保护, 模型发布后同样面临上述问题.
(3) 现有的联邦学习隐私保护方式单一、缺乏针对性. 联邦学习在本地参数上传、全局参数下发、终端之间参数交换等不同阶段面临的风险不同, 但由于缺乏明确的隐私程度度量和隐私防御目标设定, 现有技术无法根据各个阶段和数据情况设计保护方案: 中心化差分隐私和本地加密等技术对本地参数上传几乎没有保护; 而本地化差分隐私能够保护本地参数上传, 但对于后续的全局参数保护程度过高, 影响模型的可用性. 即使是二者相结合的中心与本地同时保护策略, 也往往只能为训练全周期提供同样标准和程度的隐私保护, 导致联邦学习在不同阶段实际抵御攻击的能力不同.
要完善针对联邦学习隐私技术, 可以考虑以下方向.
(1) 构建隐私量化体系. 从联邦学习隐私攻击的角度出发, 量化隐私保护技术的抵御攻击的能力; 从数据的角度出发, 量化联邦学习用户对不同内容的记录和数据集的隐私需求, 从而明确联邦学习中不同的数据层次、防御层次的隐私需求, 完善隐私量化体系.
(2) 设计有针对性的隐私定义. 可以根据联邦学习各个阶段参数泄露的可能性、各个迭代轮数间隐私泄露风险不同, 设计细分隐私定义, 为不同的训练阶段、迭代轮数分配合理的隐私开销; 根据联邦学习面临的多种隐私攻击, 量化隐私风险, 为不同类型的攻击设计有针对性的隐私定义.
(3) 探索有针对性的隐私保护技术. 有针对性的隐私定义为细粒度分阶段制定隐私方案带来可能, 而隐私量化体系则明确隐私保护技术与攻击以及用户需求之间的数量关系. 在此基础上, 可以探索更有针对性的保护手段, 从而结合联邦学习模型和数据的具体情况, 有重点地保护数据集中高隐私需求的部分. 例如, 基于信息论的隐私保护[
尽管学术界正在不断探索联邦学习的隐私保护方案, 但是常见的方案为了保护隐私, 模型的鲁棒性(robustness)和公平性(fairness)往往会受到影响. 此处的鲁棒性是指模型容忍抵御恶意攻击稳定运行的能力, 公平性则指模型平等对待具有相同特征的个体或群体的能力. 如何缓解联邦学习隐私保护方案对鲁棒性和公平性的负面影响, 寻求能够平衡三者关系的统一的解决方案, 是联邦学习隐私保护需要面对的挑战.
隐私保护带来的影响如下.
(1) 目前的隐私保护方案很少考虑对模型鲁棒性的影响. 然而联邦学习场景下, 由于参与训练的角色增加, 潜在攻击者能够篡改数据并获取中间参数, 模型被恶意攻击的风险提高. 以加密方案为例, 由于隐私协议的存在, 中心服务器只能获取参数的聚合结果而无法获取单个终端的参数. 因此, 面临恶意攻击时, 中心服务器无法识别恶意参与者, 鲁棒性大大降低; 反之, 鲁棒性高的模型在面对隐私攻击时也更加脆弱[
(2) 隐私性与公平性无法兼容. 由于数据生成和收集时的偏差, 联邦学习的模型输出结果很容易倾向于拥有大量样本的类别、低延迟且算力更优的终端. 尽管Lyu等人[
为平衡隐私性、鲁棒性和公平性之间的矛盾, 可以从以下几个角度考虑:
(1) 探究同时满足隐私性和鲁棒性的解决方案. 由于引入了噪声, 通过差分隐私保护训练的模型的稳定性得到一定的提高. 例如, 针对数据投毒等恶意攻击, 篡改少量样本为经过差分隐私保护的模型带来的影响可能小于一般模型. 因此, 量化差分隐私对于投毒攻击的保护程度, 是一种协调隐私与鲁棒性的平衡性的可能方式.
(2) 探索不依赖敏感信息和设备信息实现公平性的方式. 在联邦学习隐私保护的过程中, 针对不同级别、不同数量的样本, 生成与敏感信息无关的小样本的嵌入式表示, 使得数量不占优势的类别得到模型充分的重视, 又不泄露隐私; 根据终端多次发送的参数生成终端的嵌入式表示, 用以对比区分终端的设备算力, 充分考虑不同设备间的公平性.
(3) 寻求平衡隐私性、鲁棒性和公平性合一的模型. 关注数据拥有者不同的需求, 制定个性化、自适应的方案, 从而同时满足隐私性、鲁棒性和公平性的要求.
联邦学习中数据留在本地, 负面作用是带来了大量参数交换. 在此基础上, 隐私保护成本也被抬高. 因此, 实现低成本、轻量级的联邦学习隐私保护策略, 是未来发展的必然阶段.
联邦学习隐私防御成本包括:
(1) 更高的通信代价和计算开销. 基于安全多方计算或加密的方案以密文计算为基础, 需要更多的数据量传输、安全证明, 也带来了更加高的计算量, 目前无法扩展到大规模复杂模型的训练上来. 基于本地化差分隐私的保护方案虽然不会带来额外的通信代价, 但是目前的本地化差分隐私技术需要千万级样本量才能实现中心服务器的无偏估计, 该方案隐含的计算开销非常高.
(2) 模型准确性降低. 基于差分隐私的方案需要在训练过程中添加大量噪声, 而基于加密或安全多方计算的方案在训练复杂网络时需要对激活函数线性近似. 这些都对模型的准确性造成一定影响. 尽管差分隐私能够部分增强模型的泛化能力, 但是具体增强程度缺乏量化衡量指标.
(3) 协议复杂脆弱. 以安全多方计算为基础的隐私保护需要多个参与者共同完成, 当参与者中出现恶意攻击者、突然掉线等设定外的状况时, 协议极易被破坏导致训练失败. 为了避免这些状况的出现, 有些方案设计了对应措施, 但是这些措施也进一步加剧了协议的复杂性, 提高了通信代价. 差分隐私方案虽然能够支持参与者掉线及异步训练, 并能容忍少量恶意数据, 但是在训练准确性上低于同步训练的方案.
为实现低成本、轻量级的隐私保护策略, 可以从以下几个方面展开.
(1) 利用隐私放大技术降低隐私保护的成本: 通过安全混洗, 将联邦学习的本地隐私转化为中心隐私预算, 相比于分别在中心和本地添加保护, 隐私预算大大降低; 量化训练过程中, 终端随机选择样本和服务器随机选择终端的内在隐私性. 利用训练过程中已经存在的随机性提供保护, 避免添加过多、过于严格的额外保护.
(2) 探索轻量级隐私保护方案: 除了本文中阐述的隐私保护技术以旬, 还可以采用更加轻量级的技术提供保护, 降低模型训练过程的复杂性、降低隐私保护带来的额外计算量和通信代价. 例如采用秘密共享技术交换参数, 量化泛化、降维、利用内在随机性等方式为模型带来的保护程度等.
(3) 设计自适应的隐私联邦训练方案: 通过优化联邦学习的训练过程, 降低参数的交换量、模型的聚合次数, 在提升训练效率的同时, 降低隐私开销.
目前主要的研究都针对横向联邦学习, 尤其是客户-服务器架构. 然而横向联邦学习中, 每个终端的数据分布、特征属性都相同, 数据规模近似, 数据量充足, 只是一种理想的假设. 在实践中, 联邦学习往往面临数据上和系统上的异质: 数据异构、不同分布、不同特征. 模型结构和联邦架构多样、实际应用场景丰富. 因此, 不局限于理想假设, 探索异质联邦学习的隐私保护方案, 是联邦学习真正落地的必经之路.
联邦学习在系统上的隐私保护研究不足.
(1) 不同的模型结构: 目前的方案都基于一个假设, 即所有终端训练的模型结构相同, 且与中心服务器相同. 针对各个终端模型类型不同、结构不同的训练场景, 还没有更多研究.
(2) 不同的联邦架构: 尽管针对端对端的隐私保护方案也有研究涉猎, 但是大部分方案都采用直接由一个终端发布完整模型后交付的策略, 协同训练的保护方案缺乏深入研究.
联邦学习在数据分布上的隐私保护困境表现在:
(1) 纵向联邦学习: 目前已有少量研究借助同态加密、差分隐私等技术为纵向联邦学习提供隐私保护方案, 其保护思路与保护横向联邦学习类似. 然而纵向场景下, 各方掌握的特征各异, 每一次梯度计算都需要各方多次交换中间参数, 其计算量和通信量本身已高于横向联邦学习. 为满足隐私需求, 保护中间参数又进一步恶化了这一情况. 例如, 加密的保护方法[
(2) 迁移联邦学习: 类似地, 迁移联邦学习由于损失函数更复杂、协同训练时中间参数交换更多, 面临的效率问题也更加严重[
上述两种联邦学习在训练前都需要完成实体对齐等预处理, 同样缺乏高效的隐私保护手段.
此外, 联邦学习在不同应用场景上的隐私保护研究也存在不足: 目前的研究都基于大量终端协同训练. 已有研究证明: 终端数量越高, 隐私保护下的可用性越高. 终端数量较少时, 现有技术将对模型准确性造成严重损伤. 终端较少时的低可用性, 限制了面向企业(to B)的联邦学习隐私保护发展.
未来可以在以下场景中探索隐私保护方案.
(1) 非独立同分布的数据上的隐私保护. 在隐私保护的前提下, 处理样本和数据量偏斜、消解终端内及终端间数据的相关性, 同时避免隐私保护加剧模型不收敛等现象.
(2) 纵向联邦学习的隐私保护. 消除不同损失函数的影响, 在理论上构建通用的中间参数扰动方案, 同时尝试选择发送部分参数、压缩参数数据量, 降低通信代价; 考虑到一方掌握全部标签的情况, 研究者需要为知识更少、攻击能力更弱的参与方分配更多的隐私预算, 设计合理的隐私分配机制; 有效结合加密和扰动方法, 达到全周期保护效果的同时, 降低扰动方案隐私参数计算对中间参数的依赖性.
(3) 迁移联邦学习的隐私保护. 探索可扩展到大规模、多参与方的加密方案; 探索更加丰富的迁移目标函数, 降低训练和中间参数复杂性, 避免隐私保护加剧模型计算的复杂性.
(4) 隐私预算的个性化定制. 综合考虑每个终端不同的隐私保护需求、诚实程度、信任第三方的意愿以及设备的计算和通信能力, 制定个性化、多层次的隐私保护方案, 实现隐私按需分配, 自适应地处理更加复杂的实际应用场景.
由于样本维度高、模型结构复杂, 联邦学习过程中交换的参数往往具有极高的维度, 不仅带来了巨大的通信代价, 而且面临着严重的隐私隐患. 如何解决高维中间参数的泄露风险、提高隐私保护的可靠程度, 是当前联邦学习隐私保护研究聚焦的关键问题之一.
由于模型的结构过于复杂、梯度维数过高, 仅仅依靠有限的样本量梯度无法很好地泛化. 高维参数能够携带大量样本信息, 一旦被窃取, 将泄露原始数据的信息. 然而, 高维参数的隐私保护仍然存在诸多问题: 由于高维参数携带的信息丰富, 基于中心化差分隐私的扰动并不能抵御重建攻击; 而更加严格的基于本地化差分隐私的方案需要根据维度的数量拆分隐私开销, 致使每一维分得的隐私预算低, 引入噪声量大, 严重影响模型训练的收敛和最终的准确性; 基于加密的方案中, 维度的增加带来更多计算开销, 难以在大规模训练中应用. 此外, 高维参数也会为模型带来极高的通信代价, 影响模型性能.尽管有研究通过降维保护的方案降低隐私和通信开销. 但是降维后的参数无法被接收方完全还原, 对模型的准确性造成一定影响. 因此, 高维中间参数给隐私保护、模型可用性和通信代价带来的负面影响亟需解决.
解决高维度中间参数的隐私隐患, 可以从以下3个方面展开.
(1) 探索本地化差分隐私对于高维参数的保护方式, 结合轻量级安全计算技术, 降低本地化差分隐私引入的噪声量.
(2) 探索高维参数无损压缩和恢复的机制, 在压缩的参数上扰动, 收紧隐私预算.
(3) 寻求更多训练方式. 目前, 主要的保护方式都基于模型平均和梯度平均两种联邦学习算法, 不可避免地面临高维中间参数的问题. 可以考虑寻找更多方案, 例如引入迁移学习、模型压缩等技术, 达到联合学习、分享模型的目的.
联邦学习的提出和兴起, 为解决数据孤岛、数据隐私带来巨大转机. 但是随着参与训练的角色增多、能力增强, 联邦学习也由此面临着与集中式机器学习不同的隐私泄露风险. 为联邦学习提供隐私保护方法, 是联邦学习进一步发展的必经之路, 也是联邦学习应用落地的基石.
本文针对联邦学习的隐私泄露风险和保护的最新研究做出了充分调研和深入分析, 介绍了联邦学习的架构和类型, 分析了隐私风险的来源, 总结了主要攻击策略. 按照隐私保护对象归纳保护策略, 总结各个策略的不足之处, 为联邦学习的隐私保护梳理脉络. 最后, 根据已有研究讨论了未来的研究发展. 虽然目前针对联邦学习隐私保护的研究已有不少, 但是适用场景单一、背景假设过强、抵御攻击的能力有限, 仍有许多问题亟需解决, 远未达到成熟的水平. 联邦学习隐私保护仍然等待着更多广泛、深入的研究.
本文由“数据库系统新型技术”专题特约编辑李国良教授、于戈教授、杨俊教授和范举教授推荐.
McMahan HB, Moore E, Ramage D, Hampson S, Arcas BA. Communication-efficient learning of deep networks from decentralized data. In: Proc. of the 20th Int'l Conf. on Artificial Intelligence and Statistics. 2017. 1273-1282.
Li T, Sahu AK, Talwalkar A, Smith V. Federated learning: Challenges, methods, and future directions. IEEE Signal Processing Magazine, 2020, 37(3): 50-60.
Zhu L, Liu ZJ, Han S. Deep leakage from gradients. In: Advances in Neural Information Processing Systems. MIT Press, 2019. 14774-14784.
Song C, Ristenpart T, Shmatikov V. Machine learning models that remember too much. In: Proc. of the 2017 ACM SIGSAC Conf. on Computer and Communications Security. ACM, 2017. 587-601.
http://www.jos.org.cn/1000-9825/5904.htm [doi: 10.13328/j.cnki.jos.005904]]]>
http://www.jos.org.cn/1000-9825/5904.htm [doi: 10.13328/j.cnki.jos.005904]]]>
Lyu L, Yu H, Yang Q. Threats to federated learning: A survey. arXiv preprint arXiv: 2003.02133, 2020.
Wang JZ, Kong LW, Huang ZC, Chen LJ, Liu Y, Lu CX, Xiao J. Research advances on privacy protection of federated learning. Journal of Big Data, 2021, 7(3): 130-149(in Chinese with English abstract). http://kns.cnki.net/kcms/detail/10.1321.G2.20210112.1017.002.html
王健宗, 孔令炜, 黄章成, 陈霖捷, 刘懿, 卢春曦, 肖京. 联邦学习隐私保护研究进展. 大数据, 2021, 7(3): 130-149. http://kns.cnki.net/kcms/detail/10.1321.G2.20210112.1017.002.html
Li Q, Wen Z, He B. A survey on federated learning systems: Vision, hype and reality for data privacy and protection. arXiv preprint arXiv: 1907.09693, 2019.
Vepakomma P, Swedish T, Raskar R, Gupta O, Dubey A. No peek: A survey of private distributed deep learning. arXiv preprint arXiv: 01812.03288, 2018.
Zhang D, Chen X, Wang D, Shi J. A survey on collaborative deep learning and privacy-preserving. In: Proc. of the 3rd IEEE Int'l Conf. on Data Science in Cyberspace (DSC). IEEE, 2018. 652-658.
Yang Q, Liu Y, Chen T, Tong Y. Federated machine learning: Concept and applications. ACM Trans. on Intelligent Systems and Technology (TIST), 2019, 10(2): 1-19.
Kairouz P, McMahan HB, Avent B, Bellet A, Bennis M, Bhagoji AN, Zhao S. Advances and open problems in federated learning. arXiv preprint arXiv: 1912.04977, 2019.
McMahan HB, Moore E, Ramage D, Arcas BA. Federated learning of deep networks using model averaging. arXiv preprint arXiv: 1602.05629, 2016.
Hegedűs I, Danner G, Jelasity M. Gossip learning as a decentralized alternative to federated learning. In: Proc. of the IFIP Int'l Conf. on Distributed Applications and Interoperable Systems. Cham: Springer, 2019. 74-90.
Cheng K, Fan T, Jin Y, Liu Y, Chen T, Papadopoulos D, Yang Q. Secureboost: A lossless federated learning framework. IEEE Intelligent Systems, 2021, 36(6): 87-98.
Hu Y, Niu D, Yang J, Zhou S. FDML: A collaborative machine learning framework for distributed features. In: Proc. of the 25th ACM SIGKDD Int'l Conf. on Knowledge Discovery & Data Mining. ACM, 2019. 2232-2240.
Liu Y, Kang Y, Xing C, Chen T, Yang Q. A secure federated transfer learning framework. IEEE Intelligent Systems, 2020, 35(4): 70-82.
Tramèr F, Zhang F, Juels A, Reiter MK, Ristenpart T. Stealing machine learning models via prediction apis. In: Proc. of the 25th USENIX Security Symp. (USENIX Security 2016). USENIX Association, 2016. 601-618.
Song C, Ristenpart T, Shmatikov V. Machine learning models that remember too much. In: Proc. of the 2017 ACM SIGSAC Conf. on Computer and Communications Security. ACM, 2017. 587-601.
Fredrikson M, Lantz E, Jha S, Lin S, Page D, Ristenpart T. Privacy in pharmacogenetics: An end-to-end case study of personalized warfarin dosing. In: Proc. of the 23rd USENIX Security Symp. (USENIX Security 2014). USENIX Association, 2014. 17-32.
Fredrikson M, Jha S, Ristenpart T. Model inversion attacks that exploit confidence information and basic countermeasures. In: Proc. of the 22nd ACM SIGSAC Conf. on Computer and Communications Security. ACM, 2015. 1322-1333.
Shokri R, Stronati M, Song C, Shmatikov V. Membership inference attacks against machine learning models. In: Proc. of the 2017 IEEE Symp. on Security and Privacy (SP). IEEE, 2017. 3-18.
Hitaj B, Ateniese G, Perez-Cruz F. Deep models under the GAN: Information leakage from collaborative deep learning. In: Proc. of the 2017 ACM SIGSAC Conf. on Computer and Communications Security. ACM, 2017. 603-618.
Wang Z, Song M, Zhang Z, Song Y, Wang Q, Qi H. Beyond inferring class representatives: User-level privacy leakage from federated learning. In: Proc. of the IEEE INFOCOM 2019-IEEE Conf. on Computer Communications. IEEE, 2019. 2512-2520.
Song M, Wang Z, Zhang Z, Song Y, Wang Q, Ren J, Qi H. Analyzing user-level privacy attack against federated learning. IEEE Journal on Selected Areas in Communications, 2020, 38(10): 2430-2444.
Zhao B, Mopuri KR, Bilen H. iDLG: Improved deep leakage from gradients. arXiv preprint arXiv: 2001.02610, 2020.
Geiping J, Bauermeister H, Dröge H, Moeller M. Inverting gradients-How easy is it to break privacy in federated learning? arXiv preprint arXiv: 2003.14053, 2020.
He Z, Zhang T, Lee RB. Model inversion attacks against collaborative inference. In: Proc. of the 35th Annual Computer Security Applications Conf. IEEE, 2019. 148-162.
Pan X, Zhang M, Ji S, Yang M. Privacy risks of general-purpose language models. In: Proc. of the 2020 IEEE Symp. on Security and Privacy (SP). IEEE, 2020. 1314-1331.
Melis L, Song C, De Cristofaro E, Shmatikov V. Exploiting unintended feature leakage in collaborative learning. In: Proc. of the 2019 IEEE Symp. on Security and Privacy (SP). IEEE, 2019. 691-706.
Nasr M, Shokri R, Houmansadr A. Comprehensive privacy analysis of deep learning: Passive and active white-box inference attacks against centralized and federated learning. In: Proc. of the 2019 IEEE Symp. on Security and Privacy (SP). IEEE, 2019. 739-753.
Luo X, Wu Y, Xiao X, Ooi BC. Feature inference attack on model predictions in vertical federated learning. In: Proc. of the 2021 IEEE 37th Int'l Conf. on Data Engineering (ICDE). IEEE, 2021. 181-192.
Orekondy T, Oh SJ, Schiele B, Fritz M. Understanding and controlling user linkability in decentralized learning. arXiv preprint arXiv: 1805.05838, 2018.
Jagielski M, Ullman J, Oprea A. Auditing differentially private machine learning: How private is private SGD? arXiv preprint arXiv: 2006.07709, 2020.
Dwork C, McSherry F, Nissim K, Smith A. Calibrating noise to sensitivity in private data analysis. In: Proc. of the Theory of Cryptography Conf. Berlin, Heidelberg: Springer, 2006. 265-284.
McSherry F, Talwar K. Mechanism design via differential privacy. In: Proc. of the 48th Annual IEEE Symp. on Foundations of Computer Science (FOCS 2007). IEEE, 2007. 94-103.
Nikolov A, Talwar K, Zhang L. The geometry of differential privacy: The sparse and approximate cases. In: Proc. of the 45th Annual ACM Symp. on Theory of Computing. ACM, 2013. 351-360.
http.//www.jos.org.cn/1000-9825/5364.htm [doi: 10.13328/j.cnki.jos.005364]]]>
http.//www.jos.org.cn/1000-9825/5364.htm [doi: 10.13328/j.cnki.jos.005364]]]>
Warner SL. Randomized response: A survey technique for eliminating evasive answer bias. Journal of the American Statistical Association, 1965, 60(309): 63-69.
Dwork C, Roth A. The algorithmic foundations of differential privacy. Foundations and Trends in Theoretical Computer Science, 2014, 9(3-4): 211-407.
Chaudhuri K, Monteleoni C. Privacy-preserving logistic regression. In: Advances in Neural Information Processing Systems. MIT Press, 2008. 289-296.
Chaudhuri K, Monteleoni C, Sarwate AD. Differentially private empirical risk minimization. Journal of Machine Learning Research, 2011, 12(3): 1069-1109.
Abadi M, Chu A, Goodfellow I, McMahan HB, Mironov I, Talwar K, Zhang L. Deep learning with differential privacy. In: Proc. of the 2016 ACM SIGSAC Conf. on Computer and Communications Security. ACM, 2016. 308-318.
Yu D, Zhang H, Chen W, Liu TY, Yin J. Gradient perturbation is underrated for differentially private convex optimization. arXiv preprint arXiv: 1911.11363, 2019.
Wu N, Farokhi F, Smith D, Kaafar MA. The value of collaboration in convex machine learning with differential privacy. In: Proc. of the 2020 IEEE Symp. on Security and Privacy (SP). IEEE, 2020. 304-317.
Rivest RL, Adleman L, Dertouzos ML. On data banks and privacy homomorphisms. Foundations of Secure Computation, 1978, 4(11): 169-180.
Menezes AJ, Van Oorschot PC, Vanstone SA. Handbook of Applied Cryptography. CRC Press, 2018.
Gentry C, Halevi S. Implementing gentry's fully-homomorphic encryption scheme. In: Proc. of the Annual Int'l Conf. on the Theory and Applications of Cryptographic Techniques. Berlin, Heidelberg: Springer, 2011. 129-148.
Shamir A. How to share a secret. Communications of the ACM, 1979, 22(11): 612-613.
Blakley GR. Safeguarding cryptographic keys. In: Proc. of the Int'l Workshop on Managing Requirements Knowledge. IEEE Computer Society, 1979. 313-318.
Asmuth C, Bloom J. A modular approach to key safeguarding. IEEE Trans. on Information Theory, 1983, 29(2): 208-210.
Paillier P. Public-key cryptosystems based on composite degree residuosity classes. In: Proc. of the Int'l Conf. on the Theory and Applications of Cryptographic Techniques. Berlin, Heidelberg: Springer, 1999. 223-238.
Geyer RC, Klein T, Nabi M. Differentially private federated learning: A client level perspective. arXiv preprint arXiv: 1712.07557, 2017.
McMahan HB, Ramage D, Talwar K, Zhang L. Learning differentially private recurrent language models. In: Proc. of the Int'l Conf. on Learning Representations. 2018. 1-14.
McMahan HB, Andrew G, Erlingsson U, Chien S, Mironov I, Papernot N, Kairouz P. A general approach to adding differential privacy to iterative training procedures. arXiv preprint arXiv: 1812.06210, 2018.
Liu Y, Suresh AT, Yu F, Kumar S, Riley M. Learning discrete distributions: User vs item-level privacy. In: Advances in Neural Information Processing Systems. MIT Press, 2020. 20965-20976.
Liang Z, Wang B, Gu Q, Osher S, Yao Y. Exploring private federated learning with laplacian smoothing. arXiv preprint arXiv: 2005.00218, 2020.
Osher S, Wang B, Yin P, Luo X, Barekat F, Pham M, Lin A. Laplacian smoothing gradient descent. arXiv preprint arXiv: 1806. 06317, 2018.
Shokri R, Shmatikov V. Privacy-preserving deep learning. In: Proc. of the 22nd ACM SIGSAC Conf. on Computer and Communications Security. ACM, 2015. 1310-1321.
Wu X, Li F, Kumar A, Chaudhuri K, Jha S, Naughton J. Bolt-on differential privacy for scalable stochastic gradient descent-based analytics. In: Proc. of the 2017 ACM Int'l Conf. on Management of Data. ACM, 2017. 1307-1322.
Hu R, Guo Y, Li H, Pei Q, Gong Y. Personalized federated learning with differential privacy. IEEE Internet of Things Journal, 2020, 7(10): 9530-9539.
Huang Z, Hu R, Guo Y, Chan-Tin E, Gong Y. DP-ADMM: ADMM-based distributed learning with differential privacy. IEEE Trans. on Information Forensics and Security, 2019, 15: 1002-1012.
Wei K, Li J, Ding M, Ma C, Yang HH, Farokhi F, Poor HV. Federated learning with differential privacy: Algorithms and performance analysis. IEEE Trans. on Information Forensics and Security, 2020, 15: 3454-3469.
Breiman L. Bagging predictors. Machine Learning, 1996, 24(2): 123-140.
Hamm J, Cao Y, Belkin M. Learning privately from multiparty data. In: Proc. of the Int'l Conf. on Machine Learning. ACM, 2016. 555-563.
Papernot N, Abadi M, Erlingsson U, Goodfellow I, Talwar K. Semi-supervised knowledge transfer for deep learning from private training data. arXiv preprint arXiv: 1610.05755, 2016.
Papernot N, Song S, Mironov I, Raghunathan A, Talwar K, Erlingsson Ú. Scalable private learning with PATE. arXiv preprint arXiv: 1802.08908, 2018.
Mironov I. Rényi differential privacy. In: Proc. of the 2017 IEEE 30th Computer Security Foundations Symp. (CSF). IEEE, 2017. 263-275.
Sun L, Zhou Y, Yu PS, Xiong C. Differentially private deep learning with smooth sensitivity. arXiv preprint arXiv: 2003.00505, 2020.
Zhao L, Ni L, Hu S, Chen Y, Zhou P, Xiao F, Wu L. Inprivate digging: Enabling tree-based distributed data mining with differential privacy. In: Proc. of the IEEE INFOCOM 2018-IEEE Conf. on Computer Communications. IEEE, 2018. 2087-2095.
Ding J, Wang J, Liang G, Bi J, Pan M. Towards plausible differentially private ADMM based distributed machine learning. In: Proc. of the 29th ACM Int'l Conf. on Information & Knowledge Management. ACM, 2020. 285-294.
Bun M, Steinke T. Concentrated differential privacy: Simplifications, extensions, and lower bounds. In: Proc. of the Theory of Cryptography Conf. Berlin, Heidelberg: Springer, 2016. 635-658.
Wang C, Liang J, Huang M, Bai B, Bai K, Li, H. Hybrid differentially private federated learning on vertically partitioned data. arXiv preprint arXiv: 2009.02763, 2020.
Kearns M, Pai M, Roth A, Ullman J. Mechanism design in large games: Incentives and privacy. In: Proc. of the 5th Conf. on Innovations in Theoretical Computer Science. Elsevier, 2014. 403-410.
Lu Y, Huang X, Dai Y, Maharjan S, Zhang Y. Differentially private asynchronous federated learning for mobile edge computing in urban informatics. IEEE Trans. on Industrial Informatics, 2019, 16(3): 2134-2143.
Wang N, Xiao X, Yang Y, Zhao J, Hui SC, Shin H, Yu G. Collecting and analyzing multidimensional data with local differential privacy. In: Proc. of the 2019 IEEE 35th Int'l Conf. on Data Engineering (ICDE). IEEE, 2019. 638-649.
Geng Q, Kairouz P, Oh S, Viswanath P. The staircase mechanism in differential privacy. IEEE Journal of Selected Topics in Signal Processing, 2015, 9(7): 1176-1184.
Duchi JC, Jordan MI, Wainwright MJ. Minimax optimal procedures for locally private estimation. Journal of the American Statistical Association, 2018, 113(521): 182-201.
Arachchige PCM, Bertok P, Khalil I, Liu D, Camtepe S, Atiquzzaman M. Local differential privacy for deep learning. IEEE Internet of Things Journal, 2020, 7(7): 5827-5842.
Erlingsson Ú, Pihur V, Korolova A. Rappor: Randomized aggregatable privacy-preserving ordinal response. In: Proc. of the 2014 ACM SIGSAC Conf. on Computer and Communications Security. ACM, 2014. 1054-1067.
Wang T, Blocki J, Li N, Jha S. Locally differentially private protocols for frequency estimation. In: Proc. of the 26th USENIX Security Symp. (USENIX Security 2017). USENIX Association, 2017. 729-745.
Zhao Y, Zhao J, Yang M, Wang T, Wang N, Lyu L, Lam KY. Local differential privacy based federated learning for Internet of Things. IEEE Internet of Things Journal, 2020, 8(11): 8836-8853.
Truex S, Liu L, Chow KH, Gursoy ME, Wei W. LDP-Fed: Federated learning with local differential privacy. In: Proc. of the 3rd ACM Int'l Workshop on Edge Systems, Analytics and Networking. ACM, 2020. 61-66.
Gursoy ME, Tamersoy A, Truex S, Wei W, Liu L. Secure and utility-aware data collection with condensed local differential privacy. IEEE Trans. on Dependable and Secure Computing, 2019, 18(5): 2365-2378.
Wang Y, Tong Y, Shi D. Federated latent Dirichlet allocation: A local differential privacy based framework. In: Proc. of the AAAI Conf. on Artificial Intelligence. AAAI, 2020. 6283-6290.
Kairouz P, Oh S, Viswanath P. Extremal mechanisms for local differential privacy. In: Advances in Neural Information Processing Systems. MIT Press, 2014. 2879-2887.
Liu R, Cao Y, Yoshikawa M, Chen H. Fedsel: Federated SGD under local differential privacy with top-k dimension selection. In: Proc. of the Int'l Conf. on Database Systems for Advanced Applications. Springer, 2020. 485-501.
Shin H, Kim S, Shin J, Xiao X. Privacy enhanced matrix factorization for recommendation with local differential privacy. IEEE Trans. on Knowledge and Data Engineering, 2018, 30(9): 1770-1782.
Agarwal N, Sures AT, Yu F, Kumar S, Mcmahan HB. cpSGD: Communication-efficient and differentially-private distributed SGD. In: Advances in Neural Information Processing Systems. MIT Press, 2018. 7564-7575.
Suresh AT, Felix XY, Kumar S, McMahan HB. Distributed mean estimation with limited communication. In: Proc. of the Int'l Conf. on Machine Learning. ACM, 2017. 3329-3337.
Aono Y, Hayashi T, Wang L, Moriai S. Privacy-preserving deep learning via additively homomorphic encryption. IEEE Trans. on Information Forensics and Security, 2017, 13(5): 1333-1345.
Liu Y, Kang Y, Xing C, Chen T, Yang Q. A secure federated transfer learning framework. IEEE Intelligent Systems, 2020, 35(4): 70-82.
Bonawitz K, Ivanov V, Kreuter B, Marcedone A, McMahan HB, Patel S, Seth K. Practical secure aggregation for privacypreserving machine learning. In: Proc. of the 2017 ACM SIGSAC Conf. on Computer and Communications Security. ACM, 2017. 1175-1191.
Heikkilä M, Lagerspetz E, Kaski S, Shimizu K, Tarkoma S, Honkela A. Differentially private bayesian learning on distributed data. In: Advances in Neural Information Processing Systems. MIT Press, 2017. 3226-3235.
Zhang X, Ji S, Wang H, Wang T. Private, yet practical, multiparty deep learning. In: Proc. of the 2017 IEEE 37th Int'l Conf. on Distributed Computing Systems (ICDCS). IEEE, 2017. 1442-1452.
Xu G, Li H, Liu S, Yang K, Lin X. Verifynet: Secure and verifiable federated learning. IEEE Trans. on Information Forensics and Security, 2019, 15: 911-926.
Avent B, Korolova A, Zeber D, Hovden T, Livshits B. {BLENDER}: Enabling local search with a hybrid differential privacy model. In: Proc. of the 26th USENIX Security Symp. (USENIX Security 2017). USENIX Association, 2017. 747-764.
Zhao L, Wang Q, Zou Q, Zhang Y, Chen Y. Privacy-preserving collaborative deep learning with unreliable participants. IEEE Trans. on Information Forensics and Security, 2019, 15: 1486-1500.
Pathak MA, Rane S, Raj B. Multiparty differential privacy via aggregation of locally trained classifiers. In: Advances in Neural Information Processing Systems. MIT Press, 2010. 1876-1884.
Jayaraman B, Wang L. Distributed learning without distress: Privacy-preserving empirical risk minimization. In: Advances in Neural Information Processing Systems. MIT press, 2018. 6346-6357.
Truex S, Baracaldo N, Anwar A, Steinke T, Ludwig H, Zhang R, Zhou Y. A hybrid approach to privacy-preserving federated learning. In: Proc. of the 12th ACM Workshop on Artificial Intelligence and Security. ACM, 2019. 1-11.
Paillier P. Public-key cryptosystems based on composite degree residuosity classes. In: Proc. of the Int'l Conf. on the Theory and Applications of Cryptographic Techniques. Berlin, Heidelberg: Springer, 1999. 223-238.
Damgård IB, Jurik MJ. A generalisation, a simplication and some applications of paillier's probabilistic public-key system. In: Proc. of the Int'l Workshop on Public Key Cryptography. Springer, 2001. 119-136.
Xu R, Baracaldo N, Zhou Y, Anwar A, Ludwig H. Hybridalpha: An efficient approach for privacy-preserving federated learning. In: Proc. of the 12th ACM Workshop on Artificial Intelligence and Security. ACM, 2019. 13-23.
Boneh D, Sahai A, Waters B. Functional encryption: Definitions and challenges. In: Proc. of the Theory of Cryptography Conf. Berlin, Heidelberg: Springer, 2011. 253-273.
Kim M, Lee J, Ohno-Machado L, Jiang X. Secure and differentially private logistic regression for horizontally distributed data. IEEE Trans. on Information Forensics and Security, 2019, 15: 695-710.
Zhao B, Fan K, Yang K, Wang Z, Li H, Yang Y. Anonymous and privacy-preserving federated learning with industrial big data. IEEE Trans. on Industrial Informatics, 2021, 17(9): 6314-6323.
Hu R, Guo Y, Gong Y. Concentrated differentially private and utility preserving federated learning. arXiv preprint arXiv: 2003. 13761, 2020.
Gong M, Feng J, Xie Y. Privacy-enhanced multi-party deep learning. Neural Networks, 2020, 121: 484-496.
Choudhury O, Gkoulalas-Divanis A, Salonidis T, Sylla I, Park Y, Hsu G, Das A. Anonymizing data for privacy-preserving federated learning. arXiv preprint arXiv: 2002.09096, 2020.
Poulis G, Loukides G, Gkoulalas-Divanis A, Skiadopoulos S. Anonymizing data with relational and transaction attributes. In: Proc. of the Joint European Conf. on Machine Learning and Knowledge Discovery in Databases. Berlin, Heidelberg: Springer, 2013. 353-369.
Bittau A, Erlingsson Ú, Maniatis P, Mironov I, Raghunathan A, Lie D, Seefeld B. Prochlo: Strong privacy for analytics in the crowd. In: Proc. of the 26th Symp. on Operating Systems Principles. ACM, 2017. 441-459.
Erlingsson Ú, Feldman V, Mironov I, Raghunathan A, Song S, Talwar K, Thakurta A. Encode, shuffle, analyze privacy revisited: formalizations and empirical evaluation. arXiv preprint arXiv: 2001.03618, 2020.
Bassily R, Nissim K, Stemmer U, Thakurta A. Practical locally private heavy hitters. In: Advances in Neural Information Processing Systems. MIT Press, 2017. 2288-2296.
Kwon AH, Lazar D, Devadas S, Ford B. Riffle: An efficient communication system with strong anonymity. Proc. on Privacy Enhancing Technologies, 2016, 2: 115-134.
Erlingsson Ú, Feldman V, Mironov I, Raghunathan A, Talwar K, Thakurta A. Amplification by shuffling: From local to central differential privacy via anonymity. In: Proc. of the 30th Annual ACM-SIAM Symp. on Discrete Algorithms. Society for Industrial and Applied Mathematics, 2019. 2468-2479.
Kasiviswanathan SP, Lee HK, Nissim K, Raskhodnikova S, Smith A. What can we learn privately? SIAM Journal on Computing, 2011, 40(3): 793-826.
Ghazi B, Pagh R, Velingker A. Scalable and differentially private distributed aggregation in the shuffled model. arXiv preprint arXiv: 1906.08320, 2019.
Ishai Y, Kushilevitz E, Ostrovsky R, Sahai A. Cryptography from anonymity. In: Proc. of the 200647th Annual IEEE Symp. on Foundations of Computer Science (FOCS 2006). IEEE, 2006. 239-248.
Ghazi B, Manurangsi P, Pagh R, Velingker A. Private aggregation from fewer anonymous messages. In: Proc. of the Annual Int'l Conf. on the Theory and Applications of Cryptographic Techniques. Springer, 2020. 798-827.
Cheu A, Smith A, Ullman J, Zeber D, Zhilyaev M. Distributed differential privacy via shuffling. In: Proc. of the Annual Int'l Conf. on the Theory and Applications of Cryptographic Techniques. Cham: Springer, 2019. 375-403.
Balle B, Bell J, Gascón A, Nissim K. The privacy blanket of the shuffle model. In: Proc. of the Annual Int'l Cryptology Conf. Cham: Springer, 2019. 638-667.
Balle B, Bell J, Gascón A, Nissim K. Private summation in the multi-message shuffle model. In: Proc. of the 2020 ACM SIGSAC Conf. on Computer and Communications Security. ACM, 2020. 657-676.
Ghazi B, Golowich N, Kumar R, Manurangsi P, Pagh R, Velingker A. Pure differentially private summation from anonymous messages. arXiv preprint arXiv: 2002.01919, 2020.
Ghazi B, Golowich N, Kumar R, Pagh R, Velingker A. On the power of multiple anonymous messages: Frequency estimation and selection in the shuffle model of differential privacy. In: Proc. of the Annual Int'l Conf. on the Theory and Applications of Cryptographic Techniques. Springer, 2021. 463-488.
Liu R, Cao Y, Chen H, Guo R, Yoshikawa M. FLAME: Differentially private federated learning in the shuffle model. In: Proc. of the AAAI Conf. on Artificial Intelligence. AAAI, 2021. 8688-8696.
Balle B, Barthe G, Gaboardi M. Privacy amplification by subsampling: Tight analyses via couplings and divergences. In: Advances in Neural Information Processing Systems. MIT Press, 2018. 6277-6287.
Osia SA, Taheri A, Shamsabadi AS, Katevas K, Haddadi H, Rabiee HR. Deep private-feature extraction. IEEE Trans. on Knowledge and Data Engineering, 2018, 32(1): 54-66.
Song L, Shokri R, Mittal P. Membership inference attacks against adversarially robust deep learning models. In: Proc. of the 2019 IEEE Security and Privacy Workshops (SPW). IEEE, 2019. 50-56.
Lyu L, Yu J, Nandakumar K, Li Y, Ma X, Jin J, Ng KS. Towards fair and privacy-preserving federated deep models. IEEE Trans. on Parallel and Distributed Systems, 2020, 31(11): 2524-2541.
Wu Y, Cai S, Xiao X, Chen G, Ooi BC. Privacy preserving vertical federated learning for tree-based models. arXiv preprint arXiv: 2008.06170, 2020.
Chen T, Jin X, Sun Y, Yin W. VAFL: A method of vertical asynchronous federated learning. arXiv preprint arXiv: 2007.06081, 2020.
Gao D, Liu Y, Huang A, Ju C, Yu H, Yang Q. Privacy-preserving heterogeneous federated transfer learning. In: Proc. of the 2019 IEEE Int'l Conf. on Big Data (Big Data). IEEE, 2019. 2552-2559.