在大数据时代, 人工智能得到了蓬勃发展, 尤其以机器学习、深度学习为代表的技术更是取得了突破性进展. 随着人工智能在实际场景中的广泛应用, 人工智能的安全和隐私问题也逐渐暴露出来, 并吸引了学术界和工业界的广泛关注. 以机器学习为代表, 许多学者从攻击和防御的角度对模型的安全问题进行了深入的研究, 并且提出了一系列的方法. 然而, 当前对机器学习安全的研究缺少完整的理论架构和系统架构. 从训练数据逆向还原、模型结构反向推演、模型缺陷分析等角度进行了总结和分析, 建立了反向智能的抽象定义及其分类体系. 同时, 在反向智能的基础上, 将机器学习安全作为应用对其进行简要归纳. 最后探讨了反向智能研究当前面临的挑战以及未来的研究方向. 建立反向智能的理论体系, 对于促进人工智能健康发展极具理论意义.
In the era of big data, artificial intelligence, especially the representative technologies of machine learning and deep learning, has made great progress in recent years. As artificial intelligence has been widely used to various real-world applications, the security and privacy problems of artificial intelligence is gradually exposed, and has attracted increasing attention in academic and industry communities. Researchers have proposed many works focusing on solving the security and privacy issues of machine learning from the perspective of attack and defense. However, current methods on the security issue of machine learning lack of the complete theory framework and system framework. This survey summarizes and analyzes the reverse recovery of training data and model structure, the defect of the model, and gives the formal definition and classification system of reverse-engineering artificial intelligence. In the meantime, this survey summarizes the progress of machine learning security on the basis of reverse-engineering artificial intelligence, where the security of machine learning can be taken as an application. Finally, the current challenges and future research directions of reverse-engineering artificial intelligence are discussed, while building the theory framework of reverse-engineering artificial intelligence can promote the develop of artificial intelligence in a healthy way.
随着大数据的爆炸式增长和图形处理器(GPU)等算力基础设施的迅猛发展, 以机器学习[
正向与反向机器学习
近几年, 人工智能的安全与隐私问题日益突显. 例如: 模型攻击者通过对测试数据添加轻微扰动, 就可以导致机器学习模型预测出错; 面向隐私的攻击者利用目标模型的输入和输出计算出用户的训练数据或者隐私数据, 降低模型的隐私性等. 到目前为止, 一大批来自学术界和工业界的学者对人工智能模型安全与隐私问题进行了研究, 并且先后提出了各种各样的模型攻击技术, 包括数据投毒、对抗样本攻击、后门攻击、模型萃取攻击、成员推理攻击等.
然而, 上述研究攻击模型的角度各有不同, 提出的解决方法也是各有侧重. 因此, 建立统一的理论体系对于人工智能安全研究起着至关重要的作用. 基于上面考虑, 本文采用逆向思维, 提出反向智能的概念, 从数据、模型等角度探讨人工智能反向推演的方法与机制, 从而完成人工智能逆向工程的目标, 为人工智能模型攻击和防御提供技术支持.
如
反向智能技术体系
(1) 第1层, 训练数据还原引擎对目标模型涉及的训练数据进行推断. 其一, 调研预测某一数据是否存在于训练数据的相关方法; 其二, 调研对训练数据的属性进行推断的技术; 其三, 讨论对训练数据的分布进行推断的技术. 总之, 本节从数据的多个维度出发, 对训练数据的反向推断技术进行了调研, 为下一层的模型反向推演引擎提供基本资料(见第1节).
(2) 第2层, 反向推演引擎对目标模型的细节进行推演. 其一, 调研对机器学习模型结构(例如深度神经网络的隐含层数、激活函数等)进行反向推演的技术; 其二, 调研对机器学习模型参数进行反向推演的技术; 其三, 调研对机器学习模型功能进行反向推演的技术; 本节调研了对机器学习模型内部细节进行反向推演的技术, 为下一层的机器学习模型缺陷分析引擎提供技术支撑(见第2节).
(3) 第3层, 模型缺陷分析引擎对目标模型的缺陷进行分析挖掘. 其一, 调研对机器学习模型鲁棒性分析的技术; 其二, 调研对数据不均衡性分析的技术; 其三, 调研对机器学习模型敏感性分析的技术; 本节调研了对机器学习模型缺陷分析的技术, 为下一层的机器学习模型攻击和防御提供技术依据(见第3节).
(4) 第4层, 机器学习模型攻击和防御引擎完成模型的对抗攻击和防御, 实现反向机器学习的最终目标.其一, 调研机器学习模型安全攻击的技术; 其二, 调研机器学习模型防御机制的技术(见第4节).
最后给出现有反向智能的挑战及未来发展方向(见第5节).
本文的主要贡献如下: 明确提出反向智能的概念, 给出了反向智能的技术体系及流程框架. 不同于已有的综述文献[
机器学习模型是数据驱动的智能模型, 其训练数据中往往包含着与用户相关的隐私信息[
成员推断的目标是, 利用机器学习技术自动判断查询样本是否属于某目标模型对应的训练数据集. 该类问题由Shokri等人[
成员推断技术的架构
● 黑盒成员推断方法是指在目标模型是黑盒模型的情况下进行成员推断, 即可用信息仅有通过对目标模型发起查询请求获得输入输出对, 除此之外无法获得与目标模型相关的其他任何信息. 在黑盒成员推断方法中, 根据黑盒模型的输出情况, 推断方法又可以分为两类: 一类是利用预测置信度进行推断; 另一类是利用标签进行推断. 基于预测置信度的方法是成员推断方法中的经典方法. 以分类场景为例, 预测置信度是指目标模型输出的分类概率向量. 从泛化性的角度出发, 该类方法假设对于成员数据, 目标模型输出的分类向量的熵相对较低, 即对正确类的分类概率值会比较高; 而对非成员数据, 其输出的分类向量的熵会比较高, 即没有相对较高的分类概率值. 文献[
● 白盒成员推断方法是指在目标模型为白盒模型情况下的成员推断方法, 即目标模型的结构、参数、训练方法、超参数设计等信息均是可知的. 相较于黑盒成员推断方法, 该类方法可以利用的信息更多, 因此成员推断任务相对容易. Hayes等人[
属性推断技术是指通过设计机器学习模型来推断目标模型中训练数据的敏感隐私属性, 例如推断某一类数据在训练集中所占的比例, 其一般做法如
属性推断技术实例[
为了进一步提升属性推断技术在复杂模型上的效果, Ganju等人[
模型逆向(model inversion)作为一类特殊的属性推断技术, 在近些年也受到了研究者的关注. 模型逆向的任务目标是, 重建与特定目标标签相对应的数据特征[
分布推断技术可以看作是属性推断技术的一种特例, 其目标是预测出目标模型训练数据的分布情况. 这里, 训练数据的分布本身可以看作训练数据的一种属性. 在观测数据可得的情况下, 数据集的分布估计根据是否已知数据的具体分布形式分为参数估计和非参数估计.
● 当已知数据的分布形式时, 例如知道数据服从高斯分布, 接下来的任务就是通过观察数据样本估计高斯分布的具体参数, 即均值
● 针对非参数估计, 由于不知道数据的具体分布形式, 因此相较于参数估计, 其方法也相对复杂一些. 目前常见的非参数估计的方法有核密度估计[
上述方法的前提通常要求数据是可观测的, 然而在反向智能的场景下, 目标模型的训练数据通常是未知的或者仅有小部分是可知的, 因此在这种情况下, 对训练数据的分布进行估计挑战更大. 根据目前已有的工作, 可以大致将其分为训练数据部分已知和无训练数据两种情况.
● 在已知部分训练数据的情况下, 可以利用生成对抗网络(GAN)[
● 在训练数据完全不可知的情况下, 对训练数据分布进行估计难度会更大一些. 由于训练数据分布估计和模型逆向任务有相近的目标, 因此近年来出现了一些在模型逆向场景下进行训练数据分布估计的工作. Chen等人[
分布推断技术实例[
由于当前大部分训练数据分布推断的技术[
机器学习即服务已经演化成为一种重要的商业模式. 互联网公司通过部署公共可访问的模型调用接口来满足用户对各类机器学习模型的使用需求, 如Google的多种预测API、亚马逊机器学习(AmazonML)、MicrosoftAzure机器学习(Azure ML)等. 然而, 机器学习模型的机密性要求机器学习系统必须保证未授权用户无法接触到模型的隐私信息. 例如模型架构、模型参数、训练方式等. 这种模型机密性和公共可访问之间的关系激发了智能模型反向推演技术的研究. 此外, 深入分析和研究智能模型反向推演技术也有助于促进其他相关领域的研究. 例如, 借助反演的模型, 可以生成对抗样本[
模型结构反向推演旨在设计合理的机器学习方法, 精确反演出目标黑盒模型的结构信息. 其中, 模型结构信息主要是指神经网络的架构拓扑. 实际上, 反向推演模型的结构极具挑战性. 因为任何单个模型都属于一个大的等价类网络, 仅仅依靠输入和访问API获取模型的输出通常很难精确区分网络, 因而现有工作通常假设能够获取目标黑盒模型的部分知识, 或是从硬件角度出发获取更细粒度的可用于推断模型结构的信息.
文献[
黑盒神经网络逆向工程[
另一种解决方案是从硬件角度(例如缓存侧信道、总线监听等)反演模型架构信息. 实际上, 当DNN模型在计算机上执行推理任务时, 在底层硬件上会留下依赖于架构的轨迹, 因而可以通过分析这些轨迹, 实现模型架构细节的恢复. 这些技术可以提供非常细粒度的信息, 并且已有一些工作[
NASPY框架的工作流[
本小节将模型参数反向推演细化为网络参数反向推演、模型超参数反向推演. 其中, 网络参数通常是目标模型使用专有数据进行充分训练得到的, 因此具有昂贵的知识产权; 而模型超参数是搭建神经网络前需要提前设置的超参数.
网络参数反向推演是指在已知目标模型的结构信息但模型参数未知的情况下, 通过多次查询目标模型以反向推演模型参数. 文献[
反演模型超参数的一种方法是采用黑盒模型逆向工程技术, 通过合理构建元模型去捕获目标黑盒模型具体使用的优化算法[
机器学习中, 不同的超参数通常会导致模型的性能显著不同. 这类超参数通常需要通过交叉验证进行确定, 如果机器学习算法采用多个正则化项, 则可能有多个超参数, 导致调参过程十分耗时. 文献[
模型功能反向推演[
模型功能反向推演的一般流程
在同分布数据可得的方法中, 通常假设目标数据集的部分数据可得并提出了一系列方法. 例如: JBDA[
在代理数据可得的方法中, 研究者使用替代数据集来查询目标模型[
目标数据不可得是研究者最近提出的新的问题设置, 属于相对较难的一类问题. MAZE[
MAZE的总体框架[
此外, 在模型功能窃取时, 基于训练数据逆向还原的结果, 将会对提升窃取效果有很大的帮助. Gong等人[
在获得机器学习模型训练数据并将对应模型具体结构、参数与功能反向推演成功后, 以黑盒形式部署的模型已一定程度上被“白盒化”. 在此基础之上可进行模型的缺陷分析, 基于还原成功的数据与模型内核挖掘模型内部缺陷, 进一步反向分析模型漏洞. 因此, 本节将从模型鲁棒性、数据不均衡性、模型敏感性这3个角度对机器学习模型缺陷分析相关工作进行总结归纳.
机器学习模型鲁棒性是衡量模型缺陷的重要因子之一. 基于模型反向推演的模型结果, 衡量一个模型的鲁棒性强弱, 则需要具体的、可量化的评估指标. 目前, 评估模型鲁棒性所选择的评价指标主要集中在模型鲁棒性边界上. 模型鲁棒性边界是指在模型对某一输入样本推理结果正确的情况下, 对该样本可施加的最大扰动范围. 可以看到, 模型鲁棒性边界与具体样本有关. 现有的模型鲁棒性分析方法主要可分为基于可满足性模理论与整数线性规划的方法、基于凸松弛的方法、基于Lipschitz常数的方法与基于随机平滑的方法.
基于可满足性模理论与整数线性规划的方法最初由Ehlers等人[
基于凸松弛的方法主要思路为: 将机器学习模型训练近似为线性规划等凸优化问题, 通过凸优化进一步分析模型的鲁棒性. 例如: DeepPoly[
几种常见激活函数的最佳凸松弛[
Lipschitz常数是针对函数定义的, 对一个函数而言, 其Lipschitz常数为其图像上两点连线斜率绝对值的上界. 该常数可在一定程度上衡量函数变化的剧烈程度, 因此也常用于模型鲁棒性分析. Andriushchenko等人[
基于随机平滑的方法最早可以追溯到Lecuyer等人[
数据不均衡是导致机器学习模型存在缺陷的另一因素. 目前, 数据不均衡是机器学习领域的热点研究问题之一. 在现实生活中, 数据的分布通常都是不均衡的, 某一类或者某几类的样本数量稀少, 也就是数据具有长尾分布, 如在医疗诊断领域中, 正常样本数往往远大于患特定疾病的样本数. 在这种情况下, 受训的机器学习模型常常会倾向于将输入样本分类为占多数样本的头部类别, 而在数据有限的尾部类别上表现不佳. 目前的研究主要围绕在剖析上述数据缺陷、解决类别不均衡上面, 具体方法可分为以下3类: 类别再平衡、信息增强、模型改进.
类别再平衡是解决该问题的主流方式, 其主要思路为: 平衡模型训练过程中各个类的训练样本数, 防止模型由于不同类别上的样本数量不平衡而在分类性能上有所下降. 其中最为经典的方法为基于重采样的再平衡方法, 具体内容为: 对少数类的过采样[
DCL[
基于类别再平衡思想的方法本质上没有为模型提供更多有用的信息, 甚至在一定程度上降低了信息的利用率. 因此, 一部分研究人员尝试在模型训练过程中引入额外的信息, 以便于在数据不均衡的背景下提升模型性能. 常用的方法有迁移学习和数据合成. 迁移学习相关方法的基本思路为: 分别为多数类和少数类进行数据建模, 将多数类中学到的知识迁移到少数类中. Yin等人[
样本数量上的不均衡, 会导致特征提取过程中, 信息保留不够充分, 进而影响少数类的分类边界. 因此, 对在数据不均衡下样本特征表示的优化, 可直接影响模型在少数类样本上的分类效果. 具体方案包括度量学习、两阶段学习等. 在基于度量学习的方法中, Huang等人[
除模型鲁棒性与数据均衡性会影响模型预测性能之外, 模型内部的敏感性也会导致模型产生缺陷. 不同于模型鲁棒性主要围绕模型输入输出剖析其分类边界, 模型敏感性主要关注机器学习模型的内部结构, 如特征提取、中间激活状态、内部特征表示等, 重点在于分析: 在模型推理过程中, 哪些部分对其决策有较大影响.近年来, 机器学习模型敏感性分析相关工作主要围绕模型可解释性[
2009年, Erhan等人[
DGN-AM[
特征反演最初由Mahendran等人[
由于现在深度学习模型种类繁多且日趋复杂, 因此研究人员尝试对模型的数据流图或计算图进行可视化, 用于挖掘复杂模型中较为敏感的模块. 例如, Kahng等人[
在总结阐述了反向智能的技术体系之后, 接下来重点阐述机器学习模型的防御技术. 从另一个角度来看, 模型攻击与防御可以看作前述反向智能体系中的应用. 也就是说, 数据逆向还原、模型反向推演、模型缺陷分析等技术可以用于解决模型攻击[
随着训练数据逆向还原技术的不断发展, 与其相应的防御技术也是层出不穷. 目前, 针对成员推断、属性推断、分布推断的防御技术研究也逐渐受到了研究人员的关注.
根据第1节的描述可知: 训练数据还原技术的一个出发点就是智能模型的过拟合性质, 即相较于测试数据(非训练数据), 智能模型在面对训练数据时, 往往会返回比较高的预测置信度[
防御训练数据的逆向还原
模型逆向反演的任务目标是推断模型的结构、参数、功能等隐私信息, 由于目标模型大多情况下为黑盒模型, 与目标模型相关的可得数据仅有(输入数据, 预测输出)对, 因此模型逆向反演方法大多情况下都是基于(输入数据, 预测输出)对来实现的. 针对上述情况, 一个很直观的防御思路就是对模型的输出结果进行更改, 就像上一节中所提到的对预测结果增加噪声扰动一样, 利用对抗样本的思想, 对预测结果进行更改, 可以在一定程度上对模型逆向反演方法造成干扰. 例如Orekondy等人[
此外, 由于大部分针对目标模型的反演攻击方法需要与目标模型进行频繁的交互, 并且由于目标模型是黑盒模型, 攻击者往往不清楚目标模型的训练数据域, 因此其所提交的查询数据往往是在训练数据分布外的数据. 基于上述情况, 针对查询次数和查询样本的防御方法逐渐受到了人们的关注. 针对查询次数的防御方法相对来说比较简单, 当某个用户频繁地向目标模型发起请求时, 就能判定该用户可能有反演模型的意图, 进而对该用户的请求进行限制. 这一防御方法在其他领域也得到了广泛的应用, 例如反爬虫机制. 针对查询数据的检测防御[
防御模型的逆向反演
机器学习模型缺陷分析是站在模型“白盒化”基础之上, 对模型的缺陷与漏洞进行分析挖掘. 同样的, 作为能够完全了解对应模型训练数据及具体细节的模型拥有者, 更可以主动地对模型漏洞进行检测[
正则化是一个较为宽泛的概念, 即使用一些先验知识对机器学习进行相应的约束, 使得对应的数据或模型规范化, 从而缩小攻击面, 对数据投毒[
● 数据正则化中, 代表性的技术有特征压缩、特征去噪等. 特征压缩由Xu等人[
● 模型正则化中, 早期技术为防御精馏, 对应方法由Papernot等人[
防御精馏整体概述
反向智能从逆向思维的角度对人工智能模型进行解析, 为进一步理解人工智能提供了有效的途径和方法. 尽管当前反向智能已经取得了一系列瞩目的研究成果, 但目前该研究还处于初级阶段, 仍然存在许多关键问题亟待解决.
● 首先, 训练数据的输入空间决定了模型的搜索空间, 因此, 高维的输入数据使得搜索空间急剧增加, 加剧了数据逆向还原的难度. 训练样本的多样性也给训练数据逆向还原带来了挑战. 尽管基于梯度的方法可以在一定程度上还原真实训练数据, 但是模型的鲁棒性[
● 其次, 功能的相似性给模型还原带来一定挑战. 例如, ResNet和VGG两个网络具有十分相似的模型功能. 此外, 深度学习网络由任意多个隐含层构成, 删掉某个隐含层整体上不会影响模型的功能. 这些造成了精确还原模型存在一定难度;
● 最后, 模型缺陷隐蔽性强及缺少定量的描述. 模型缺陷常常隐藏在模型结构内部, 且其大小目前难以精确衡量, 缺陷对模型性能的影响程度目前仍难以准确量化.
综上, 现有的反向智能研究还有广阔的发展空间, 总结未来的研究方向如下.
(1) 结构化逆向数据还原. 在训练数据中, 数据常常包含各种各样的结构信息. 例如在图像中, 单个像素点与周围像素点常常具有一定的相关性. 如此, 像素点集合常常能够构成含有某种语义信息的结构. 在训练数据逆向还原过程中, 可以将如此的结构信息作为先验知识加入到模型中, 进而降低模型的搜索空间, 提高数据的还原精度. 例如: 在模型中增加一些结构化的规则项, 约束还原的数据包含某种结构信息, 使得还原的数据在时空上具有平滑性. 此外, 从模型结构内部挖掘与数据集相关的信息也是一个有意思的研究方向. 例如, 卷积神经网络中的BN层包含了数据集的均值和方差, 因此, 加入如此跟数据集相关的历史信息对于还原训练数据具有十分重要的作用.
(2) 模型指纹技术. 正如上所述, 不同的神经网络模型常常具有十分相似的功能, 同时增加或者减少一些隐含层并不改变模型的功能, 这给模型结构精确还原带来了很大的挑战. 因此. 对模型的指纹技术进行研究是一个有趣的研究方向. 例如: 根据模型的中间输出或者最终输出, 能够挖掘到与模型结构关联性强的信息, 也就是模型指纹. 通过对这些信息进行分析, 从而确定模型结构. 此外, 利用神经网络架构搜索的方法也可以对目标模型的结构进行还原. 通过利用搜索技术找到与目标模型相同或者相似的结构, 也是值得研究的方向.
(3) 缺陷识别及测量技术. 不同的训练条件(例如训练数据类别不均衡)会导致训练的模型常常具有某些缺陷, 导致模型的性能受到一定程度影响. 因此, 精确定量的刻画模型缺陷是未来的研究方向. 同时, 模型缺陷对于模型性能影响很大, 不同的模型缺陷往往会对模型产生不同的影响. 建立模型缺陷和模型性能之间的关系, 对于人工智能的算法对抗起着关键的作用. 因此, 如何精确衡量不同缺陷对于模型性能的影响, 也是未来的关键研究方向之一.
(4) 反向智能系统. 比起人工智能的常规任务, 反向智能的任务相对来说更加困难, 需要耗费更大的算力资源, 因此需要有更加高效的, 甚至全新的系统架构对于反向智能任务进行实现. 例如在反向智能中, 需要常常收集目标模型输出的结果作为状态对模型进行分析. 当需要的数据量较大时, 网络带宽将会是一个较大的瓶颈. 因此, 解决高带宽等诸如此类的需求, 会是在反向智能系统方面的未来研究方向.
随着人工智能安全引起社会的广泛关注, 反向智能成为了一个新生而又有前景的研究领域, 能够为人工智能安全提供一套从底向上的理论体系保障. 然而到目前为止, 反向智能的研究还处于十分初级阶段, 许多关键的科学问题依然没有解决. 为了理清人工智能安全需要的理论基础, 总结现有研究成果的优势与不足, 明确未来的研究方向, 本文从逆向思维的角度出发, 提出了反向智能的概念, 并从数据、模型、应用等方面系统地探讨了反向智能的关键科学问题, 回顾了大量相关研究成果并进行了科学的分类和总结. 最后, 讨论了反向智能挑战和未来发展方向.
Bishop CM. Pattern Recognition and Machine Learning. New York: Springer, 2006.
Xu H, Ma Y, Liu HC, Debayan D, Liu H, Tang JL, Jain, Anil K. Adversarial attacks and defenses in images, graphs and text: A review. Int'l Journal of Automation and Computing, 2020, 17(2): 151-178.
Zhang CN, Philipp B, Lin CG, Adil K, Wu J, Kweon, In So. A survey on universal adversarial attack. arXiv: 2103. 01498, 2021.
Milad N, Shokri R, Houmansadr A. Machine learning with membership privacy using adversarial regularization. In: Proc. of the ACM SIGSAC Conf. on Computer and Communications Security. 2018. 634-646.
Reza S, Stronati M, Song CZ, Shmatikov V. Membership inference attacks against machine learning models. In: Proc. of the 2017 IEEE Symp. on Security and Privacy (SP). IEEE, 2017. 3-18.
Luca M, Song CZ, De Cristofaro E, Shmatikov V. Exploiting unintended feature leakage in collaborative learning. In: Proc. of the 2019 IEEE Symp. on Security and Privacy (SP). IEEE, 2019. 691-706.
Song L, Shokri R, Mittal P. Membership inference attacks against adversarially robust deep learning models. In: Proc. of the 2019 IEEE Security and Privacy Workshops (SPW). IEEE, 2019. 50-56.
Samuel Y, Giacomelli I, Fredrikson M, Jha S. Privacy risk in machine learning: Analyzing the connection to overfitting. In: Proc. of the 31st IEEE Computer Security Foundations Symp. (CSF). IEEE, 2018. 268-282.
Christopher A Choquette Choo, Tramer F, Carlini N, Papernot N. Label-only membership inference attacks. In: Proc. of the Int'l Conf. on Machine Learning. PMLR, 2021. 1964-1974.
Truex S, Liu L, Gursoy ME,
Truex S, Liu L, Gursoy ME,
Hayes, Jamie, Melis L, Danezis G, Cristofaro ED. LOGAN: Evaluating information leakage of generative models using generative adversarial networks. arXiv: 1705. 07663, 2017.
Nasr, Milad, Shokri R, Houmansadr A. Comprehensive privacy analysis of deep learning: Passive and active white-box inference attacks against centralized and federated learning. In: Proc. of the 2019 IEEE Symp. on Security and Privacy. IEEE, 2019. 739-753.
Krizhevsky A, Hinton G. Learning multiple layers of features from tiny images. In: Handbook of Systemic Autoimmune Diseases. 2009.
Huang G, Liu Z, Van Der Maaten L, Weinberger KQ. Densely connected convolutional networks. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2017. 4700-4708.
Ateniese G, Mancini LV, Spognardi A,
Ganju K, Wang Q, Yang W, Gunter CA, Borisov N. Property inference attacks on fully connected neural networks using permutation invariant representations. In: Proc. of the 2018 ACM SIGSAC Conf. on Computer and Communications Security. 2018. 619-633.
Zaheer M, Kottur S, Ravanbakhsh S, Poczos B, Salakhutdinov RR, Smola AJ. Deep sets. In: Advances in Neural Information Processing Systems. 2017. 3394-3404.
Gopinath D, Converse H, Pasareanu C, Taly A. Property inference for deep neural networks. In: Proc. of the 34th IEEE/ACM Int'l Conf. on Automated Software Engineering (ASE). IEEE, 2019. 797-809.
Zhang YH, Jia RX, Pei HZ, Wang WX, Li B, Song D. The secret revealer: Generative model-inversion attacks against deep neural networks. In: Proc. of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition. IEEE, 2020. 253-261.
Fredrikson M, Lantz E, Jha S, Lin S, Page D, Ristenpart T. Privacy in pharmacogenetics: An end-to-end case study of personalized warfarin dosing. In: Proc. of the 23rd {USENIX} Security Symp. ({USENIX} Security 2014). 2014. 17-32.
Fredrikson M, Jha S, Ristenpart T. Model inversion attacks that exploit confidence information and basic countermeasures. In: Proc. of the 22nd ACM SIGSAC Conf. on Computer and Communications Security. 2015. 1322-1333.
Chen S, Kahla M, Jia RX, Qi GJ. Knowledge-enriched distributional model inversion attacks. In: Proc. of the IEEE/CVF Int'l Conf. on Computer Vision. 2021. 16178-16187.
Myung IJ. Tutorial on maximum likelihood estimation. Journal of Mathematical Psychology, 2003, 47(1): 90-100.
Bernardo JM, Smith AFM. Bayesian Theory. Vol. 405, John Wiley & Sons, 2009.
Silverman BW. Density Estimation for Statistics and Data Analysis. Routledge, 2018.
Cover T. Estimation by the nearest neighbor rule. IEEE Trans. on Information Theory, 1968, 14(1): 50-55.
Goodfellow I, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A, Bengio Y. Generative adversarial nets. In: Advances in Neural Information Processing Systems. 2014.
Kingma DP, Welling M. Auto-encoding variational Bayes. arXiv preprint arXiv: 1312. 6114, 2013.
Wang P, Li YJ, Singh KK, Lu JW, Vasconcelos N. IMAGINE: Image synthesis by image-guided model inversion. ArXiv abs/2104. 05895, 2021.
Wang KC, Yan F, Ke L, Khisti AJ, Zemel R, Makhzani A. Variational model inversion attacks. In: Proc. of the 35th Conf. on Neural Information Processing Systems. 2021.
Wang P, Li YJ, Singh KK, Lu JW, Vasconcelos N. IMAGINE: Image synthesis by image-guided model inversion. In: Proc. of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition. IEEE, 2021. 3681-3690.
Zhang YH, Jia RX, Pei HZ, Wang WX, Li B, Song D. The secret revealer: Generative model-inversion attacks against deep neural networks. In: Proc. of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition. IEEE, 2020. 253-261.
Yin HX, Molchanov P, Alvarez JM, Li ZZ, Mallya A, Hoiem D, Jha NK, Kautz J. Dreaming to distill: Data-free knowledge transfer via deepinversion. In: Proc. of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition. 2020. 8715-8724.
Thiagarajan JJ, Narayanaswamy V, Rajan D, Liang J, Chaudhari A, Spanias A. Designing counterfactual generators using deep model inversion. In: Proc. of the 35th Conf. on Neural Information Processing Systems. 2021.
Szegedy C, Zaremba W, Sutskever I, Bruna J, Erhan D, Goodfellow IJ, Fergus R. Intriguing properties of neural networks. In: Proc. of the Int'l Conf. on Learning Representations. 2014.
Dezfooli M, Mohsen S, Fawzi A, Frossard P. Deepfool: A simple and accurate method to fool deep neural networks. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2016. 2574-2582.
Oh SJ, Schiele B, Fritz M. Towards reverse-engineering black-box neural networks. In: Proc. of the Explainable AI: Interpreting, Explaining and Visualizing Deep Learning. Cham: Springer, 2019, 121-144.
Yan MJ, Fletcher CW, Torrellas J. Cache telepathy: Leveraging shared resource attacks to learn DNN architectures. In: Proc. of the USENIX Security Symp. 2020. 2003-2020.
Hua WZ, Zhang ZR, Suh GE. Reverse engineering convolutional neural networks through side-channel information leaks. In: Proc. of the ACM/ESDA/IEEE Design Automation Conf. (DAC). IEEE, 2018. 1-6.
Naghibijouybari H, Neupane A, Qian ZY, Abu-Ghazaleh N. Rendered insecure: GPU side channel attacks are practical. In: Proc. of the ACM SIGSAC Conf. on Computer and Communications Security. 2018. 2139-2153.
Hu X, Liang L, Li SC, Deng L, Zuo PF, Ji Y, Xie XF, Ding YF, Liu C, Sherwood T,
Zhu YK, Cheng YQ, Zhou HS, Lu YT. Hermes attack: Steal {DNN} models with lossless inference accuracy. In: Proc. of the 30th {USENIX} Security Symp. 2021.
Lou XX, Guo SW, Li JW, Wu YX, Zhang TW. NASPY: Automated extraction of automated machine learning models. In: Proc. of the Int'l Conf. on Learning Representations. 2022.
Tramèr F, Zhang F, Juels A,
Lydia A, Francis S. Adagrad—An optimizer for stochastic gradient descent. Int'l Journal of Information Computer Science, 2019, 6(5): 566-568.
Robbins H, Monro S. A stochastic approximation method. The Annals of Mathematical Statistics, 1951, 400-407.
Kingma DP, Ba J. Adam: A method for stochastic optimization. arXiv: 1412. 6980, 2014.
Tieleman T, Hinton G. Lecture 6. 5-rmsprop: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural Networks for Machine Learning, 2012, 4(2): 26-31.
Maheswaranathan N, Sussillo D, Metz L, Sun RX, Sohl-Dickstein J. Reverse engineering learned optimizers reveals known and novel mechanisms. In: Proc. of the Conf. on Neural Information Processing Systems. 2021. 19910-19922.
Sussillo D, Barak O. Opening the black box: Low-dimensional dynamics in high-dimensional recurrent neural networks. Neural Computation, 2013, 25(3): 626-649.
Andrychowicz M, Denil M, Gomez S, Hoffman MW, Pfau D, Schaul T, Shillingford B, De Freitas N. Learning to learn by gradient descent by gradient descent. In: Proc. of the Advances in Neural Information Processing Systems. 2016. 3981-3989.
Polyak BT. Some methods of speeding up the convergence of iteration methods. USSR Computational Mathematics and Mathematical Physics, 1964, 4(5): 1-17.
Duchi J, Hazan E, Singer Y. Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research, 2011, 12(7): 257-269.
Wang BH, Gong NZQ. Stealing hyperparameters in machine learning. In: Proc. of the IEEE Symp. on Security and Privacy (SP). IEEE, 2018. 36-52.
Montgomery DC, Peck EA, Vining GG. Introduction to Linear Regression Analysis. John Wiley & Sons, 2015.
Jagielski M, Carlini N, Berthelot D, Kurakin A, Papernot N. High accuracy and high fidelity extraction of neural networks. In: Proc. of the {USENIX} Security Symp. 2020. 1345-1362.
Papernot N, McDaniel P, Goodfellow I, Jha S, Celik ZB, Swami A. Practical black-box attacks against machine learning. In: Proc. of the 2017 ACM on Asia Conf. on Computer and Communications Security. 2017. 506-519.
Pal S, Gupta Y, Shukla A,
Orekondy T, Schiele B, Fritz M. Knockoff nets: Stealing functionality of black-box models. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2019. 4954-4963.
Shi Y, Sagduyu Y, Grushin A. How to steal a machine learning classifier with deep learning. In: Proc. of the 2017 IEEE Int'l Symp. on Technologies for Homeland Security (HST). IEEE, 2017. 1-5.
Settles B, Craven M. An analysis of active learning strategies for sequence labeling tasks. In: Proc. of the 2008 Conf. on Empirical Methods in Natural Language Processing. 2008. 1070-1079.
Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network. arXiv: 1503. 02531, 2015.
Kariyappa, Sanjay, Prakash A, Qureshi MK. Maze: Data-free model stealing attack using zeroth-order gradient estimation. In: Proc. of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition. 2021. 13814-13823.
Fang GF, Song J, Shen CC, Wang XC, Chen D, Song ML. Data-free adversarial distillation. arXiv: 1912. 11006, 2019.
Micaelli P, Storkey AJ. Zero-shot knowledge transfer via adversarial belief matching. In: Advances in Neural Information Processing Systems. 2019. 9551-9561.
Ghadimi S, Lan GH. Stochastic first-and zeroth-order methods for nonconvex stochastic program-ming. SIAM Journal on Optimization, 2013, 23(4): 2341-2368.
Nesterov Y, Spokoiny V. Random gradient-free minimization of convex functions. Foundations of Com-putational Mathematics, 2017, 17(2): 527-566.
Truong JB,
Gong X, Chen Y, Yang W, Mei G, Wang Q. INVERSENET: Augmenting model extraction attacks with training data inversion. In: Proc. of the 30th Int'l Joint Conf. on Artificial Intelligence {IJCAI-21}. 2021.
Ehlers R. Formal verification of piece-wise linear feed-forward neural networks. In: Proc. of the Int'l Symp. on Automated Technology for Verification and Analysis. Cham: Springer, 2017.
Katz G, Barrett C, Dill DL,
Tjeng V, Xiao K, Tedrake R. Evaluating robustness of neural networks with mixed integer programming. arXiv: 1711.07356, 2017.
Singh G, Gehr T, Püschel M,
Salman H, Yang G, Zhang H,
Xu K, Shi Z, Zhang H,
Hein M, Andriushchenko M. Formal guarantees on the robustness of a classifier against adversarial manipulation. arXiv: 1705. 08475, 2017.
Zhang H, Zhang PC, Hsieh CJ. Recurjac: An efficient recursive algorithm for bounding Jacobian matrix of neural networks and its applications. Proc. of the AAAI Conf. on Artificial Intelligence, 2019, 33(1).
Lecuyer M,
Cohen J, Rosenfeld E, Kolter Z. Certified adversarial robustness via randomized smoothing. In: Proc. of the Int'l Conf. on Machine Learning. PMLR, 2019.
Yang G, Duan T, Hu JE,
Pouyanfar S,
He H, Garcia EA. Learning from imbalanced data. IEEE Trans. on Knowledge and Data Engineering, 2009, 21(9): 1263-1284.
Wang YR,
Wu T,
Yin X, Yu X, Sohn K,
Chawla NV, Bowyer KW, Hall LO,
Huang C, Li Y, Loy CC,
Zhang X, Fang Z, Wen Y,
Kang B, Xie S, Rohrbach M,
Erhan D, Bengio Y, Courville A,
Nguyen A, Dosovitskiy A, Yosinski J,
Mahendran A, Vedaldi A. Understanding deep image representations by inverting them. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2015. 5188-5196.
Dosovitskiy A, Brox T. Inverting visual representations with convolutional networks. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2016. 4829-4837.
Du M, Liu N, Song Q,
Kahng M, Andrews PY, Kalro A,
Strobelt H, Gehrmann S, Pfister H,
Strobelt H, Gehrmann S, Behrisch M,
Biggio B,
Salem A, Zhang Y, Humbert M,
Wang Q, Guo W, Zhang K,
Nguyen A, Yosinski J, Clune J. Deep neural networks are easily fooled: High confidence predictions for unrecognizable images. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2015.
Jia JY, Salem A, Backes M, Zhang Y, Gong NZQ. Memguard: Defending against black-box membership inference attacks via adversarial examples. In: Proc. of the 2019 ACM SIGSAC Conf. on Computer and Communications Security (CCS). 2019.
Goodfellow IJ, Shlens J, Szegedy C. Explaining and harnessing adversarial examples. arXiv: 1412.6572, 2014.
Metzen JH, Genewein T, Fischer V, Bischoff B. On detecting adversarial perturbations. In: Proc. of the Int'l Conf. on Learning Representations. 2017.
Papernot N,
Tramèr F, Kurakin A, Papernot N, Boneh D, McDaniel P. Ensemble adversarial training: Attacks and defenses. arXiv: 1705.07204, 2017.
Dwork C. Differential privacy: A survey of results. In: Proc. of the Int'l Conf. on Theory and Applications of Models of Computation. Berlin, Heidelberg: Springer, 2008. 1-19.
Abadi M, Chu A, Goodfellow I, McMahan HB, Mironov I, Talwar K, Zhang L. Deep learning with differential privacy. In: Proc. of the 2016 ACM SIGSAC Conf. on Computer and Communications Security. 2016. 308-318.
Papernot N, Abadi M, Erlingsson U, Goodfellow I, Talwar K. Semi-supervised knowledge transfer for deep learning from private training data. arXiv: 1610.05755, 2016.
Orekondy T, Schiele B, Fritz M. Prediction poisoning: Towards defenses against DNN model stealing attacks. arXiv: 1906.10908, 2019.
Metzen JH,
Wang JY,
Juuti M, Szyller S, Marchal S, Asokan N. PRADA: Protecting against DNN model stealing attacks. In: Proc. of the 2019 IEEE European Symp. on Security and Privacy (EuroS & P). IEEE, 2019. 512-527.
Kariyappa S, Qureshi MK. Defending against model stealing attacks with adaptive misinformation. In: Proc. of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition. 2020. 770-778.
Carlini N, Wagner D. Adversarial examples are not easily detected: Bypassing ten detection methods. In: Proc. of the ACM Workshop on Artificial Intelligence and Security. 2017. 3-14.
Carlini N, Wagner D. Magnet and "efficient defenses against adversarial attacks" are not robust to adversarial examples. arXiv: 1711.08478, 2017.
Nelson B, Barreno M, Chi FJ, Joseph AD, Rubinstein BIP, Saini U, Sutton C, Tygar JD, Xia K. Exploiting machine learning to subvert your spam filter. LEET, 2008, 8(1-9): 16-17.
Xiao H, Biggio B, Brown G, Fumera G, Eckert C, Roli F. Is feature selection secure against training data poisoning? In: Proc. of the Int'l Conf. on Machine Learning. PMLR, 2015. 1689-1698.
Biggio B, Nelson B, Laskov P. Support vector machines under adversarial label noise. In: Proc. of the Asian Conf. on Machine Learning. PMLR, 2011. 97-112.
Liu YF, Ma XJ, Bailey J, Lu F. Reflection backdoor: A natural backdoor attack on deep neural networks. In: Proc. of the European Conf. on Computer Vision. Cham: Springer, 2020. 182-199.
Zhao SH, Ma XJ, Zheng X, Bailey J, Chen JJ, Jiang YG. Clean-label backdoor attacks on video recognition models. In: Proc. of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition. 2020. 14443-14452.
Saha A, Subramanya A, Pirsiavash H. Hidden trigger backdoor attacks. In: Proc. of the AAAI Conf. on Artificial Intelligence. 2020. 11957-11965.
Bagdasaryan E, Shmatikov V. Blind backdoors in deep learning models. In: Proc. of the 30th USENIX Security Symp. (USENIX Security 2021). 2021. 1505-1521.
Lin YC, Hong ZW, Liao YH, Shih ML, Liu MY, Sun M. Tactics of adversarial attack on deep reinforcement learning agents. In: Proc. of the Int'l Joint Conf. on Artificial Intelligence. 2017. 3756-3762.
Kos J, Song D. Delving into adversarial attacks on deep policies. In: Proc. of the Int'l Conf. on Learning Representations (Workshop). 2017.
Jia R, Liang P. Adversarial examples for evaluating reading comprehension systems. In: Proc. of the Conf. Empirical Methods Natural Lang. Process (EMNLP). 2017. 1-11.
Sharif M, Bhagavatula S, Bauer L,
Xie C, Wang J, Zhang Z,
Fischer V, Kumar MC, Metzen JH, Brox T. Adversarial examples for semantic image segmentation. In: Proc. of the Int'l Conf. on Learning Representations (Workshop). 2017.
Carlini N, Wagner D. Audio adversarial examples: Targeted attacks on speech-to-text. In: Proc. of the IEEE Security and Privacy Workshops (SPW). IEEE, 2018. 1-7.
Madry A, Makelov A, Schmidt L,
Xu W, Evans D, Qi Y. Feature squeezing: Detecting adversarial examples in deep neural networks. arXiv: 1704.01155, 2017.
Xie C, Wu Y, Maaten L,
Papernot N, McDaniel P, Wu X,
Carlini N, Wagner D. Towards evaluating the robustness of neural networks. In: Proc. of the 2017 IEEE Symp. on Security and Privacy (SP). IEEE, 2017. 39-57.
Gu S, Rigazio L. Towards deep neural network architectures robust to adversarial examples. arXiv: 1412.5068, 2014.
Carlini, Nicholas, Wagner D. Towards evaluating the robustness of neural networks. In: Proc. of the IEEE Symp. on Security and Privacy (SP). IEEE, 2017. 39-57.