首页 > 学术百科

一种不可察觉的对抗补丁生成方法及应用[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 202011246415.9

(22)申请日 2020.11.10

(71)申请人浙江科技学院

地址 310023 浙江省杭州市留和路318号

(72)发明人钱亚冠　王佳敏　王滨　陶祥兴　

周武杰　云本胜　

(74)专利代理机构北京金智普华知识产权代理

有限公司 11401

代理人杨采良

(51)Int.Cl.

G06K 9/62(2006.01)

G06N 3/04(2006.01)

G06N 3/08(2006.01)

(54)发明名称

一种不可察觉的对抗补丁生成方法及应用

(57)摘要

本发明属于人工智能安全技术领域，公开了

一种高强度对抗补丁样本生成方法及应用，首先

通过Grad ‑CAM计算图像中对CNNs分类决策影响

较大的区域，并将该区域作为图像的特征贡献区

域(CFRs)；然后利用掩膜机制定位该区域，使得

能够在确定的特征贡献区域完成加扰。本发明重

新定义一个损失函数作为优化的目标函数，进而

利用随机梯度下降优化算法并引入超参数寻

高效的扰动，即可获得基于CFRs的对抗样本。本

发明通过只在特征贡献区域加扰以及将扰动范

围限制在人眼难以察觉的微小范围内，实现了对

抗强度和不可感知性之间良好的平衡，在CIFAR ‑

10和ILSVRC2012数据集上得到了实验验证。本发

明产生的对抗样本应用于对抗训练，可有效提高

深度学习防御能力。权利要求书2页说明书15页附图10页CN 112364915 A 2021.02.12

C N 112364915

1.一种基于网络可解释性的生成人眼难以察觉的对抗补丁的方法，其特征在于，所述基于网络可解释性的生成人眼难以察觉的对抗补丁的方法包括：

通过Grad-CAM计算图像中对CNNs分类决策影响较大的区域，并将所述区域作为图像的特征贡献区域；

利用掩膜机制定位所述区域，在确定的特征贡献区域完成加扰。

2.如权利要求1所述基于网络可解释性的生成人眼难以察觉的对抗补丁的方法，其特征在于，所述基于网络可解释性的生成人眼难以察觉的对抗补丁的方法具体包括：

(1)利用Grad-CAM搜索获取的图像的特征贡献区域(CFRs)；

(2)通过掩膜定位图像CFRs，与原始图像进行Hadamard乘积后获得扰动区域；

(3)生成对抗样本损失函数和扰动的l2范数作为优化的目标函数，利用随机梯度下降算法优化计算特征贡献区域的对抗补丁，叠加到原始图像后得到只有局部扰动的补丁对抗样本。

3.如权利要求2所述基于网络可解释性的生成人眼难以察觉的对抗补丁的方法，其特征在于，所述利用Grad-CAM搜索获取的图像的特征贡献区域包括：

(1)将获取的原始图像X通过CNN，在最后一层卷积层输出图像X的高层特征表示为A，其中用A k∈R u×v表示高层特征A中第k个卷积核的激活输出，卷积核的大小为u×v。A经过一个全连接层FC后，输出每个类的得分向量Y；

(2)采用全局平均池化操作，计算第k个卷积核的权重

其中，Z＝u×v，为第k个卷积核(i,j)处的激活输出；Y C表示第C类的Logits值；

表示Y C对A k的梯度；所述用于衡量第k个卷积核对第C类的分类预测重要性；

(3)结合权重对A k进行加权求和，得到关于第C类的一个特征激活映射并对加权结果进行一次ReLU激活处理，得到第C类的激活映射：

(4)以热力图的形式可视化其中红区域即为对分类器分类到第C类的特征贡献区域CFRs。

4.如权利要求2所述基于网络可解释性的生成人眼难以察觉的对抗补丁的方法，其特征在于，所述掩膜包括：

所述掩膜为一个与输入图像同样大小的0-1矩阵mask X；利用阈值机制即可得到mask X：

其中，1表示保留像素的区域即CFRs的像素位置；0表示不保留像素的区域；t为阈值，

表示输入图像X为第C类激活映射。

5.如权利要求2所述基于网络可解释性的生成人眼难以察觉的对抗补丁的方法，其特征在于，所述目标函数包括生成对抗样本的损失函数和局部扰动δCFR的l2正则化函数；

所述目标函数如下：

其中，β是一个超参数，用于控制失真的程度；T表示超参数。

6.如权利要求2所述基于网络可解释性的生成人眼难以察觉的对抗补丁的方法，其特征在于，所述对局部扰动进行迭代优化包括：

其中，表示1/F在δCFR的梯度；LR是一个超参数，表示学习率。

7.一种基于网络可解释性生成不可察觉的对抗补丁系统，其特征在于，所述基于网络可解释性生成不可察觉的对抗补丁系统包括：

(1)特征贡献区域获取模块，用于利用Grad-CAM计算的图像的特征贡献区域；

(2)局部区域定位模块，用于通过掩膜定位图像的特征贡献区域；

(3)对抗补丁获取模块，基于重新定义的目标函数，在局部区域利用随机梯度下降算法进行迭代优化计算对抗补丁，并基于计算得到的补丁与获取的图像相加得到补丁对抗样本。

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：通过Grad-CAM计算图像中对CNNs分类决策影响较大的区域，并将所述区域作为图像的特征贡献区域；

利用掩膜机制定位所述区域，在确定的特征贡献区域完成加扰。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

过Grad-CAM计算图像中对CNNs分类决策影响较大的区域，并将所述区域作为图像的特征贡献区域；

利用掩膜机制定位所述区域，在确定的特征贡献区域完成加扰。

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现权利要求1～6任意一项所述的方法。

一种不可察觉的对抗补丁生成方法及应用

技术领域

[0001]本发明属于人工智能安全技术领域，尤其涉及一种对抗补丁生成方法、生成系统、设备、储存介质及应用。

背景技术

[0002]目前，深度学习技术的发展，促进了深度神经网络(DNNs)在各个领域的成功应用。尤其是其中的卷积神经网络(CNNs)，在图像分类领域表现出了优异的性能。但是，许多现有的研究表明，CNNs容易受到人类察觉不到的扰动的干扰，这种添加了微小扰动的样本被称为对抗样本。已有学者提出了多种生成对抗样本的技术，例如L-BFGS、FGSM、I-FGSM、PGD和C&W。这些技术生成的对抗样本可以成功的欺骗CNNs做出错误的预测，使得CNNs在某些安全敏感领域的应用(例如自动驾驶、基于人脸识别的金融支付等)受到限制，因此对对抗样本的研究具有重要意义。

[0003]最近的研究表明深层神经网络容易受到精心制作的对抗样本的影响，并且已经提出了许多先进的

算法来制作对抗样本，上述所有工作要么通过某些优化技术生成了具体的对抗样本，要么尝试利用对抗现象来理解CNN易受微小扰动干扰的现象。相反，本发明尝试利用CNNs的可解释性来生成更有效的对抗样本，本发明中称之为补丁对抗样本，利用该对抗样本进行对抗训练，可有效增强深度神经网络的防御能力。

[0004]从两种被认为是最先进的解释CNNs的方法：CAM和Grad-CAM的工作中得到启发。通过Grad-CAM计算得到图像中哪一部分部分贡献最大，这类似于人类的注意力机制，该特殊区域在本发明称为“特征贡献区域”(CFRs)。到目前为止，这是从视觉上反映CNNs的最好解释。有了这个观察，本发明推测在CFRs上添加扰动生成的对抗样本用于对抗训练会比以往的方法更有效。

[0005]显然，本发明的方法是在语义级别上进行对抗扰动，而先前的工作主要集中在像素级别上。FGSM和C&W这样的典型方法只会扰乱图像中的所有像素，而不考虑其语义。尽管某些方法会扰乱局部图像区域，例如JSMA和one-pixel技术，但它们并未考虑相邻像素之间具有扰动的相互作用，即被扰动的像素可能不会形成连续区域。与本发明的工作类似的是目前一些被提出的补丁对抗样本或贴纸对抗样本，也是属于局部连续区域的对抗方法。因此，本发明对CFRs的扰动可以视为某种形式的对抗补丁。但是，本发明的方法在三个方面与现有的对抗补丁不同。首先已有的补丁或贴纸的形状是规则的，而本发明的CFRs形状是任意的。第二个问题是补丁或贴纸的位置是任意确定的，而本发明的CFRs由Grad-CAM在语义级别定位。最后，已提出的方法其补丁和贴纸的扰动幅度不受限制，而本发明的方法将扰动

范围限制在人眼难以察觉的微小范围内。

[0006]尽管本发明工作似乎是在图像语义级别考虑CFRs，但它与图像语义分割不同，因为本发明的方法将更多的注意力放在影响分类的区域上，而图像分割则是尝试到图像边缘。从网络可解释性开始，而图像分割则专注于对象本身。最近技术1Xie等人制作了对抗样本来欺骗语义分割和对象检测器，而技术2Gu等人利用YOLO检测器来定位敏感区域以增加

扰动。本质上，他们的方法都没有充分利用网络解释。另外，本发明CFRs的大小远小于物体检测器获得的区域。

[0007]通过上述分析，现有技术存在的问题及缺陷为：第一，现有对抗样本生成方法主要集中在像素级别上的扰动，而不考虑其语义；第二，尽管某些方法是局部扰动，但是扰动的像素点可能是离散的，并未考虑相邻像素之间具有扰动的相互作用；第三，已被提出的对抗补丁或者对抗贴纸其补丁或贴纸的形状是规则的并且其位置是任意确定的；第四，已提出对抗补丁或者贴纸方法扰动幅度不受限制。

[0008]解决以上问题及缺陷的难度为：首先，目前的补丁扰动其对抗块在视觉上非常明显，如何生成对人类来说是不可见的，但对对抗训练有效的对抗补丁是一个具有挑战的问题。其次，如何从网络的可解释性来实现有效的对抗，CNNs一直被认为是一个黑盒，对它为什么做出这样的分类结果没有一个合理的解释，那么如果能够得知CNNs分类决策的依据，就可以实现一个更有效的生成对抗补丁样本方法。

[0009]解决以上问题及缺陷的意义为：目前提出的一类对抗补丁方法，其目的只是欺骗识别系统，很少用来对抗训练增强模型的防御能力；同样也没有考虑补丁的不可察觉性，在优化目标中仅考虑对抗补丁的放置位置及可能经过的变换，这就导致生成的对抗样本很容易被察觉。本发明通过对对抗补丁添加约束，利用Grad-CAM和掩膜机制确定的补丁位置和大小，在保证不可察觉性的同时确保了对抗的性能，实现了对抗强度和不可感知性之间良好的平衡。

发明内容

[0010]针对现有技术存在的问题，本发明提供了一种不可察觉的对抗补丁生成方法、生成系统、设备、储存介质及应用。

[0011]本发明是这样实现的，一种基于网络可解释性的生成不可察觉的对抗补丁的方法，所述基于网络可解释性的生成不可察觉的对抗补丁包括：

[0012]通过Grad-CAM和掩膜方法计算、定位图像中对CNNs分类决策影响较大的区域，并将定该区域作为图像的特征贡献区域(CFRs)；定义一个损失函数作为优化的目标函数，利用随机梯度下降算法进行迭代优化，并引入超参数(即反温度T)寻高效的扰动，即可得基于特征贡献区域的对抗补丁。

[0013]进一步，所述基于网络可解释性的生成不可察觉的对抗补丁的方法包括以下步骤：

[0014]步骤一，进行干净图像获取，利用Grad-CAM计算的图像的特征贡献区域(CFRs)；[0015]步骤二，通过掩膜定位图像的特征贡献区域；

[0016]步骤三，定义一个损失函数作为优化的目标函数；

[0017]步骤四，在局部区域利用随机梯度下降算法迭代优化补丁，并引入超参数(即反温度T)寻高效的扰动；

[0018]步骤五，将计算得到的对抗补丁与步骤S101对应的干净图像相加即可得到补丁对抗样本。

[0019]进一步，步骤一中，所述利用Grad-CAM计算的图像的特征贡献区域(CFRs)包括：[0020](1)将获取的原始图像X通过CNN，在最后一层卷积层输出图像X的高层特征表示为

本文发布于:2024-09-20 14:33:04，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/798563.html

上一篇：软件的双向探测[发明专利]

下一篇：专利代理人申请承诺书

标签：对抗区域图像特征生成

留言与评论（共有 0 条评论）