本文由“面向开放场景的鲁棒机器学习”专刊特约编辑陈恩红教授、李宇峰副教授、邹权教授推荐.
https://github.com/SkyKuang/DGCAT.]]>
https://github.com/SkyKuang/DGCAT.]]>
近年来, 深度神经网络已经在各种领域任务中取得了巨大的成功, 如目标识别[
为了抵御对抗样本的攻击, 研究者们已经提出了大量的防御策略和算法来提升模型的鲁棒性[
当前, 在模型训练过程中, 对抗训练方法往往是相对独立地处理每个训练样本, 此做法忽略了样本间的几何结构关系. 本文认为: 样本间几何结构的稳定性, 是抵御对抗样本攻击的重要因素之一. 换而言之, 对于一个鲁棒性模型, 自然样本间的几何结构关系应该与其对应的对抗样本间的几何结构关系是一致的. 也就是, 合成的对抗样本应具有与自然样本相同的特征空间结构, 这能够保证数据分布的一致性. 因此, 本文的第一个核心贡献是探索并设计了两种新的空间几何度量约束, 即空间距离约束和相对角度约束, 旨在度量样本在特征空间中几何结构的匹配程度. 此外, 为了得到更好的模型泛化能力, 本文提出了一种双标签联合监督学习方法. 该方法充分利用自然样本的正确标签以及对抗样本的错误标签对模型训练过程进行联合监督, 使模型学到对抗样本中的鲁棒性特征和自然样本中的非鲁棒性特征(即泛化特征). 最后, 本文将几何度量约束和双标签监督学习方法融合到一个端到端的训练框架中, 称为双标签几何约束对抗训练, 整个框架如
双标签几何约束对抗性训练流程图, 通过最大化自然样本和对抗样本之间的几何度量来生成对抗样本用于对抗训练; 通过最小化双标签损失来更新模型参数
本文第1节介绍传统的对抗训练算法. 第2节介绍基于几何约束的对抗训练方法, 重点介绍分析两个几何空间约束度量. 第3节介绍双标签监督学习方法, 并从理论上阐明双标签监督学习对模型特征的影响, 同时也阐述深度特征如何影响模型的鲁棒性. 第4节是实验结果与分析, 包含不同方法的性能比较、消融实验对比和实验结果分析. 第5节介绍相关工作, 包括对抗攻击、防御模型和对抗样本的可解释性. 第6节总结全文, 并指出未来工作的方向.
对抗训练由Goodfellow等人[
其中,
几何约束对抗训练的核心在于约束样本特征空间的整体几何结构, 以保证数据分布的一致性, 而不是只针对当个样本进行约束训练. 为此, 我们提出了两种空间几何约束度量: 空间距离约束和相对角度约束. 通过在神经网络模型训练过程中增加几何空间约束, 使得模型利用样本的整体结构稳定性来防御对抗攻击, 从而提升模型的鲁棒性.
传统的对抗训练只匹配单个自然样本和对抗样本之间的特征, 而几何约束对抗训练则是约束整个样本空间中的几何结构, 使得整个数据分布保持一致
为方便描述几何约束对抗训练算法, 相关符号定义如下:
对于数据样本间的距离度量, 我们考虑训练数据中的一对自然样本〈
其中,
其中,
其中,
在网络训练时, 我们将约束函数
在高维空间中, 只使用空间距离度量无法精确捕获两个样本之间的几何结构关系. 因此, 我们引入了样本间相对角度信息来进一步确定样本间的几何结构. 对于相对角度度量, 考虑训练数据中的一个三元组〈
其中,
其中,
在第2.1节和第2.2节, 我们构建了基于距离和角度的特征几何约束, 现在定义基于几何约束的对抗训练. 传统的对抗训练都是通过PGD攻击方式产生对抗样本, 导致训练速度慢以及需要大量计算资源. 为了解决这一缺陷, 本文提出了一种新的对抗样本产生方式, 称为几何离散对抗样本. 它通过最大化训练样本间的特征距离和相对角度来产生对抗样本, 即在高维特征空间中, 让对抗样本的特征空间结构与自然样本的特征空间结构越不匹配越好. 这种产生对抗样本的过程, 称为几何离散. 与PGD攻击算法不同是, 在产生对抗样本过程中, 几何离散不需要样本标签, 是一种无监督对抗攻击算法. 与传统的对抗训练方法相比, 本文的算法有效地杜绝了标签泄露的问题, 它的计算形式如下:
其中,
基于几何结构约束的对抗训练可以被认为既学习到了样本的语义信息, 同时也学习到了整体数据分布的几何结构信息, 使得神经网络模型可以利用数据的整体几何结构稳定性来提升模型的鲁棒性.
在传统的神经网络训练中, 都是利用原有的数据标签对神经网络模型进行单一监督训练. 但在对抗攻击场景下, 对抗样本可以误导神经网络产生错误的预测结果, 而且对抗样本和自然样本的微小误差人眼无法区别. 因此我们猜测: 1) 自然样本中包含了对抗样本错误类别的相关特征; 2) 正常训练得到的神经网络模型只使用少量的特征来进行结果预测, 只要其中的一些特征被对抗噪声干扰, 那么神经网络就会输出错误的结果. 基于此设计了一种双标签监督学习方法, 利用对抗样本的真实标签以及被攻击后的错误标签对神经网络模型进行联合监督训练, 其算法形式如下:
其中,
需要注意的是, 我们提出的双标签监督算法与噪声标签和标签平滑有本质的不同. 其中: 噪声标签只是平滑或者替换了原始标签, 原则上还是单个标签; 而标签平滑是在其余所有类别的标签上都给予一个较小的值. 而双标签监督算法是从特征包含的角度出发, 由于对抗样本只是加了微小的扰动, 而且样本的生物信息特征并没有改变, 因此认为原始样本就包含了对抗样本错误类别的特征. 与标签平滑不同的是, 我们只考虑两个最大关联的标签, 而不是所有的标签信息都考虑. 因此, 双标签监督总是涉及到两个标签. 进一步, 我们提供了理论分析, 阐述了双标签监督算法如何影响模型的鲁棒性.
接下来推导双标签监督算法关于神经网络模型鲁棒性的相关性质. 我们定义
其中,
(1) 当
(2) 当
(3) 当
证明: 首先, 对
定义
对
当
(1) 当
(2) 当
(3) 当
通过上述性质可知: 当
当使用双标签进行监督训练时, 有
使用双标签监督的另一个好处是: 在训练阶段, 即使神经网络对训练集已经进行了完全正确的拟合, 网络仍然会有一定的损失函数值来更新网络权重, 这使得网络能够从正确标签类别中学到更深层次的特征, 从而更好地提高模型的泛化能力和鲁棒性. 最后, 将基于几何约束的对抗训练和双标签监督学习算法整合到一个端到端的训练框架中, 我们称为双标签几何约束对抗训练(dual-label geometry constraint adversarial training, DGCAT). 算法1中总结了DGCAT的一般训练过程.
输入: 数据集
网络模型
输出: 鲁棒网络模型
1. 随机初始化网络
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
为了验证本文所提方法的有效性, 我们将本文提出的方法与现在主流的基准方法进行了比较, 主要的基准方法包括标准对抗训练[
实现细节:
● 在训练阶段, 初始化学习率为0.1; 整个训练过程中, 学习率的变化为[0.1, 0.01, 0.001]. 对于CIFAR-10和CIFAR-100数据集, 分别在训练的第80轮和120轮调整学习率, 总共训练共200轮; 而对于SVHN数据集, 分别在第40轮和第60轮调整学习率, 总共训练80轮. 仿照之前基准工作[
α=0.4, 代码基于PyTorch框架, 相关代码已经开源: https://github.com/SkyKuang/DGCAT.]]>
为了验证模型的鲁棒性, 首先在CIFAR-10数据集上对提出的算法以及基准方法进行了鲁棒性评估. CIFAR-10数据集被认为是对抗训练鲁棒性评估的基准数据集, 它包含10个类别, 拥有5万张训练图像和1万张测试图像. 使用不同的攻击算法在1万张测试集上生成对抗样本, 然后测试我们模型在对抗样本上的准确率. 采用FGSM和多步PGD攻击算法进行攻击, PGD步长分别为20, 40和100. 实验结果如
在CIFAR-10数据集上模型鲁棒性
方法名称 | 干净测试样本 | FGSM攻击 | PGD攻击 | ||
PGD-20 | PGD-40 | PGD-100 | |||
Standard | 32.7 | 0.0 | 0.0 | 0.0 | |
Madry | 86.7 | 54.2 | 46.4 | 46.1 | 44.7 |
TRADES | 87.4 | 64.5 | 55.7 | 54.1 | 53.3 |
BAT | 91.1 | 70.7 | 57.5 | 56.3 | 55.2 |
DGCAT | 90.4 |
在第3节中我们提出了神经网络模型的脆弱性的原因之一是标准训练的网络模型只用了少量特征进行预测推理, 而鲁棒性模型则使用更多的特征来进行预测推理. 为了验证这一结论, 用L1正则约束来使网络权重变得稀疏, 从而强迫网络使用较少的特征进行推理. 实验结果表明, 基于L1约束的模型在20步PGD攻击下只取得了57.3%的准确度. 相比于不用L1约束的模型, 鲁棒性严重下降, 这也侧面证明了我们结论的正确性.
此外, 我们还在CIFAR-100数据集上进行了相关实验. CIFAR-100拥有100个类别图像, 其中包含5万张训练图像和1万张测试图像, 由于种类的变多, 在CIFAR-100上取得较好的性能会更具挑战性. 实验结果如
在CIFAR-100数据集上模型鲁棒性
方法名称 | 干净样本 | FGSM攻击 | PGD攻击 | ||
PGD-20 | PGD-40 | PGD-100 | |||
Standard | 10.1 | 0.8 | 0.3 | 0.1 | |
Madry | 59.1 | 28.5 | 23.6 | 23.1 | 22.2 |
TRADES | 64.3 | 32.4 | 26.2 | 25.8 | 24.3 |
BAT | 68.2 | 60.8 | 26.7 | 26.2 | 25.3 |
DGCAT | 73.1 |
为了验证模型的泛化能力, 除了在CIFAR类数据集上进行测试之外, 我们还在SVHN数据集上进行了鲁棒性评估. SVHN是一个拥有10类房号标记的数据集, 包含73 257张训练图像和26 032张测试图像. 在SVHN数据集上, 使用3次迭代产生训练所需要的对抗样本, 每次的步长为4.0/255. 整个实验结果见
在SVHN数据集上模型鲁棒性
方法名称 | 干净样本 | FGSM攻击 | PGD攻击 | ||
PGD-20 | PGD-40 | PGD-100 | |||
Standard | 41.1 | 0.4 | 0.1 | 0.0 | |
Madry | 93.7 | 66.5 | 47.8 | 47.1 | 46.3 |
TRADES | 94.3 | 68.3 | 52.3 | 50.9 | 48.8 |
BAT | 94.1 | 69.8 | 53.9 | 52.7 | 50.3 |
DGCAT | 96.8 |
为了进一步验证模型在黑盒攻击下的鲁棒性, 选取了主流的黑盒攻击方法来测试本文所提方法的鲁棒性. 在黑盒攻击中, 最常见以及应用最广泛的方法为迁移攻击[
黑盒攻击下不同数据集上的模型鲁棒性
方法名称 | 正常代理模型 | 鲁棒代理模型 | ||
FGSM | PGD-20 | FGSM | PGD-20 | |
CIFAR-10 | 88.8 | 89.4 | 81.8 | 76.4 |
CIFAR-100 | 67.4 | 70.3 | 72.1 | 64.7 |
SVHN | 85.4 | 87.3 | 91.7 | 79.5 |
为了进一步研究本文提出方法中的几个组件对模型鲁棒性的影响, 我们做了大量消融实验. 为了保证消融实验的公平性, 所有实验都在CIFAR-10数据集上进行, 并且所有除了需要对比的参数不同外, 其他超参数全部保持一致.
(1) 几何约束对模型鲁棒性的影响.
通过比较不同对抗训练方法的鲁棒性来验证本文提出的几何约束对抗训练的优势. 首先, 构建了不同训练模型的方式, 分别为: a) 标准训练(Standard); b) 基于随机噪声的对抗训练(Random); c) 基于FGSM攻击的对抗训练(FGSM); d) 基于迭代PGD攻击的对抗训练(Madry); e) 只是用距离约束的对抗训练(Geometry-D); f) 只是使用角度约束的对抗训练(Geometry-A); g) 同时使用距离和角度约束的对抗训练(Geometry). 整个实验结果见
不同对抗训练模型在白盒攻击下的鲁棒性
方法名称 | 干净样本 | FGSM | PGD-20 | PGD-40 |
注: 后缀“DL”表示该模型使用双标签监督算法训练 | ||||
Standard | 95.5 | 32.7 | 0.0 | 0.0 |
Standard+DL | 71.4 | 10.9 | 2.8 | |
Random | 95.4 | 43.7 | 0.2 | 0.0 |
Random+DL | 95.2 | 79.8 | 29.2 | 11.3 |
FGSM | 89.4 | 0.4 | 0.0 | |
FGSM+DL | 92.8 | 95.3 | 31.8 | 28.5 |
Madry | 86.7 | 54.2 | 46.4 | 44.7 |
Madry+DL | 85.9 | 64.7 | ||
Geometry-D | 90.2 | 89.1 | 4.9 | 1.2 |
Geometry-D+DL | 93.4 | 89.2 | 45.0 | 27.2 |
Geometry-A | 91.4 | 7.5 | 1.5 | |
Geometry-A+DL | 88.5 | 44.7 | 28.8 | |
Geometry | 91.5 | 64.7 | 37.7 | 36.6 |
Geometry+DL | 90.4 | 77.1 |
此外, 当结合距离约束和角度约束时, 模型在FGSM攻击下的鲁棒性有所下降. 我们认为: 这是由于FGSM攻击只进行了1次梯度计算, 如公式(16), 所以FGSM的梯度信息相对简单, 易于被拟合; 而我们的方法为了加快训练速度, 同样使用1次迭代. 由于单一的距离约束或者角度约束不够强时, 可能导致产生的对抗样本与FGSM攻击产生的对抗样本相似, 从而导致模型更好地拟合FGSM攻击算法产生的对抗样本.从实验结果中也可以看出: 仅仅使用随机噪声进行对抗训练的模型对于FGSM攻击的防御就能达到43.7%, 但对于较强的PGD攻击, 基于FGSM的训练方法和随机噪声的训练方法的防御效果都很差; 相反, 基于更强约束(同时约束距离和角度)的对抗训练在面对更强的攻击算法时表现得更好.
为了进一步分析几何离散产生的对抗样本与PGD系列算法产生的对抗样本的区别, 我们测试不同方法产生对抗样本的攻击能力. PGD使用交叉熵损失函数产生对抗样本, TRADES使用KL散度产生对抗样本, Geometry使用几何离散产生对抗样本. 实验结果见
不同方法产生的对抗样本的攻击能力
数据集 | FGSM | PGD | TRADES | Geometry |
CIFAR10 | 77.1 | 66.3 | 68.4 | 75.1 |
CIFAR100 | 68.9 | 37.3 | 48.9 | 56.6 |
SVHN | 95.9 | 83.4 | 62.5 | 87.9 |
(2) 双标签监督算法对模型鲁棒性的影响.
传统的神经网络训练都是使用单个标签监督训练, 为了验证本文提出的双标签监督训练算法的有效性, 我们对比了多个训练模型在使用单标签训练和双标签训练时的鲁棒性. 实验结果见
(3) 超参数
为了确定在双标签监督下,
不同
干净测试样本 | FGSM | PGD-20 | PGD-40 | |
0.1 | 90.6 | 74.8 | 60.3 | 56.1 |
0.2 | 75.4 | 58.8 | 54.4 | |
0.3 | 90.1 | 76.5 | 62.5 | 59.5 |
0.4 | 90.4 | |||
0.5 | 90.3 | 76.8 | 64.6 | 61.9 |
Sezgedy等人[
其中, (
其中,
除了以上这种需要访问模型梯度信息的攻击算法(白盒攻击), 现实情况下, 更多的攻击者使用的是黑盒攻击算法[
随着一系列攻击方法被提出来, 大量的防御策略也相继被研发出来抵御对抗攻击. 比如: Papernot等人[
在对抗训练基础上, Zhang等人[
其中,
对抗样本的反常现象引起了很多研究者对其内在机理的研究兴趣, 如何解释这一现象, 成为了近些年的研究热点. Szegedy等人[
本文提出了一种基于双标签监督的几何约束对抗训练算法, 该方法通过约束神经网络高维空间特征的几何关系, 包括空间距离约束和相对角度约束, 来保证自然样本和对抗样本的特征分布一致性. 其次, 我们提出一种双标签监督训练方法, 利用对抗样本的真实标签和被攻击后的错误标签共同监督神经网络的训练, 并通过对双标签监督算法的分析, 在一定程度上揭示了对抗样本产生的内在机理. 为了验证提出算法的有效性, 我们在多个基准数据集上进行了实验分析. 实验结果表明: 本文提出的方法不仅提高了神经网络模型的鲁棒性, 还保持了模型一定的泛化能力, 且节省计算资源和训练时间, 是一种可行的对抗训练策略.
Krizhevsky A, Sutskever I, Hinton GE. Imagenet classification with deep convolutional neural networks. In: Proc. of the Advances in Neural Information Processing Systems, Vol. 25. 2012. 1097-1105.
Hinton G, Deng L, Yu D,
Mnih V, Badia AP, Mirza M,
Szegedy C, Zaremba W, Sutskever I,
Moosavi-Dezfooli SM, Fawzi A, Frossard P. Deepfool: A simple and accurate method to fool deep neural networks. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2016. 2574-2582.
Cisse M, Adi Y, Neverova N,
Carlini N, Wagner D. Audio adversarial examples: Targeted attacks on speech-to-text. In: Proc. of the IEEE Security and Privacy Workshops (SPW). IEEE, 2018. 1-7.
Akhtar N, Mian A. Threat of adversarial attacks on deep learning in computer vision: A survey. IEEE Access, 2018, 6: 14410-14430.
Chakraborty A, Alam M, Dey V,
Ji SL, Du TY, Li JF,
纪守领, 杜天宇, 李进锋, 等. 机器学习模型安全与隐私研究综述. 软件学报, 2021, 32(1): 41-67. http://www.jos.org.cn/1000-9825/6131.htm[doi: 10.13328/j.cnki.jos.006131]
Madry A, Makelov A, Schmidt L,
Dhillon G, Azizzadenesheli K, Lipton Z,
Yang Y, Zhang G, Katabi D,
Song C, He K, Wang L,
Zhang H, Yu Y, Jiao J,
Goodfellow I, Shlens J, Szegedy C. Explaining and harnessing adversarial examples. In: Proc. of the Int'l Conf. on Learning Representations. 2015.
Ren S, He K, Girshick R,
Ilyas A, Santurkar S, Engstrom L,
Wang J, Zhang H. Bilateral adversarial training: Towards fast training of more robust models against adversarial attacks. In: Proc. of the IEEE/CVF Int'l Conf. on Computer Vision. 2019. 6629-6638.
Tramèr F, Kurakin A, Papernot N,
Wu L, Zhu Z, Tai C. Understanding and enhancing the transferability of adversarial examples. arXiv: 1802.09707, 2018.
Dong Y, Pang T, Su H,
Krizhevsky A, Hinton G. Learning multiple layers of features from tiny images. Technical Report, Citeseer, 2009.
Netzer, Y., Wang, T., Coates, A.
Zagoruyko S, Komodakis N. Wide residual networks. In: Proc. of the British Machine Vision Conf. 2016. British Machine Vision Association, 2016.
Papernot N, McDaniel P, Wu X,
Samangouei P, Kabkab M, Chellappa R. Defense-GAN: Protecting classifiers against adversarial attacks using generative models. In: Proc. of the Int'l Conf. on Learning Representations. 2018.
Guo C, Rana M, Cisse M,
Raghunathan A, Steinhardt J, Liang P. Semidefinite relaxations for certifying robustness to adversarial examples. In: Proc. of the Int'l Conf. on Neural Information Processing Systems. 2018. 10900-10910.
Athalye A, Carlini N, Wagner D. Obfuscated gradients give a false sense of security: Circumventing defenses to adversarial examples. In: Proc. of the Int'l Conf. on Machine Learning. PMLR, 2018. 274-283.
Athalye A, Carlini N. On the robustness of the cvpr 2018 white-box adversarial example defenses. arXiv: 1804.03286, 2018.