一种基于NES算法的黑盒模型反演攻击方法及系统与流程

一种基于nes算法的黑盒模型反演攻击方法及系统
技术领域
1.一种基于nes算法的黑盒模型反演攻击方法及系统，用于黑盒模型反演攻击，属于人工智能安全领域。

背景技术：

2.信息技术的发展极大的丰富了数据的来源，机器学习作为一种以数据为驱动的技术，在近些年迎来了蓬勃发展的机遇。在机器学习模型被部署到各行各业发挥作用的同时，各种安全问题也随之出现。由于机器学习模型在训练过程中需要海量的数据，不可避免会涉及到一些敏感信息，这些数据通过改变模型参数而在模型中留下痕迹，攻击者可以通过隐私攻击技术获取此类痕迹中蕴含的隐私信息，而传统数据管理中关于隐私保护的方法无法起到有效的保护作用。
3.模型反演攻击(也称模型逆向攻击)是一种针对已部署机器学习模型的隐私攻击技术，攻击者通过利用模型的输出来反向推测重构该模型训练数据中的敏感信息。现有的模型反演攻击方法可分为两种：
4.(1)基于优化的反演攻击方法：此类方法假设攻击者能获取目标模型预测过程的中间变量，并通过梯度下降来重构模型中的数据，但在现实场景中，攻击者往往只能获得模型最后的预测结果，导致此类攻击方法的实用性相对较低；
5.(2)基于模型训练的反演攻击方法：这种方法通过训练另一个模型(记为反演模型)来重构目标模型的数据，此方法可在黑盒情况下发起攻击，但在训练反演模型的过程中需要不断与目标模型交互，每条训练数据都需要输入到目标模型中以获取预测概率进而计算训练损失。其与目标模型交互次数过多，一方面，容易被受害者察觉(即隐藏性差)，另一方面，目标模型往往有交互频率的限制，从而会进一步增大此类方法的耗时。

技术实现要素：

6.针对上述研究的问题，本发明的目的在于提供一种基于nes算法的黑盒模型反演攻击方法及系统，解决现有技术中基于优化的反演攻击方法实用性相对较低，和基于模型训练的反演攻击方法隐藏性差、耗时长等问题。
7.为了达到上述目的，本发明采用如下技术方案：
8.一种基于nes算法的黑盒模型反演攻击方法，包括如下步骤：
9.步骤1、基于给定的数据集训练一对gan模型，包括与被攻击模型的输入类型相同的g模型和对g模型的输出进行评分的d模型，其中，被攻击模型即为目标模型，数据集中数据的类型与目标模型一致；
10.步骤2、基于训练好的g模型和d模型，结合目标模型的输出，对目标模型发起反演攻击得到重构图像。
11.进一步，所述步骤1中的g模型为generator生成模型，d模型为discriminator鉴别器。
12.进一步，所述步骤2的具体步骤为：
13.步骤2.1：初始化一个输入向量z，并输入generator生成模型得到输出g(z)；
14.步骤2.2：利用nes算法计算g(z)的更新目标即通过从搜索分布中随机采样并评估后更新搜索分布来得到优化后的更新目标其中，nes算法是一种黑盒优化方法；
15.步骤2.3：将更新目标输入discriminator鉴别器，得到评分为若该的评分未达到给定的阈值σ2，则采用白盒优化方法更新generator生成模型的输入向量z，更新后转到步骤2.1继续执行；否则，即为目标模型t中目标类别的重构图像，白盒优化方法包括快速梯度下降法和投影梯度下降法。
16.进一步，所述步骤2.2的具体步骤为：
17.步骤2.21、将vector(g(z))作为搜索分布的期望μ，并初始化搜索分布的参数θ，其中，以θ为参数的搜索分布的期望为μ，vector(g(z))表示将矩阵g(z)转化为向量；
18.步骤2.22、从参数为θn的搜索分布中随机采样得到向量xk，并将xk转化为矩阵形式matrix(xk)，并输入目标模型t，得到目标模型t中目标类别的预测概率t(matrix(xk))，其中，n的初始值为1，θn表示第n轮迭代中搜索分布的参数θ，xk表示第k个向量x；
19.步骤2.23、若得到λ个次采样的向量xk及预测概率t(matrix(xk))，对所有预测概率取均值，记预测概率均值为否则，转到步骤2.22继续采样，其中，t(matrix(xk))表示第k个向量x的预测概率；
20.步骤2.24、若第n轮迭代中，预测概率均值达到给定的阈值σ1，得到搜索分布的参数为θn，并转到步骤2.25，否则，根据nes算法更新搜索分布的参数θn，并转到步骤2.22执行第n＝n+1轮迭代；
21.步骤2.25、利用θn求期望，并将期望作为更新目标，记期望为则为g(z)的更新目标。
22.进一步，所述步骤2.24中，根据nes算法更新搜索分布的参数θn的具体步骤为：
23.根据nes算法更新搜索分布的参数θn：其中：
[0024][0025][0026][0027]
其中，η为更新步长，表示对θn的各个分量求偏导，为以θn为参数的搜索分布在目标模型上得分的期望，π(xk|θn)表示以θn为参数的搜索分布上xk的概率密度的概率密度，f-1
是f的逆矩阵，f为费歇尔信息矩阵，中的t指
的是矩阵转置。
[0028]
一种基于nes算法的黑盒模型反演攻击系统，包括：
[0029]
模型训练模块：基于给定的数据集训练一对gan模型，包括与被攻击模型的输入类型相同的g模型和对g模型的输出进行评分的d模型，其中，被攻击模型即为目标模型，数据集中数据的类型与目标模型一致；
[0030]
反演攻击模块：基于训练好的g模型和d模型，结合目标模型的输出，对目标模型发起反演攻击得到重构图像。
[0031]
进一步，所述模型训练模块中的g模型为generator生成模型，d模型为discriminator鉴别器。
[0032]
进一步，所述反演攻击模块的具体实现步骤为：
[0033]
步骤2.1：初始化一个输入向量z，并输入generator生成模型得到输出g(z)；
[0034]
步骤2.2：利用nes算法计算g(z)的更新目标即通过从搜索分布中随机采样并评估后更新搜索分布来得到优化后的更新目标其中，nes算法是一种黑盒优化方法；
[0035]
步骤2.3：将更新目标输入discriminator鉴别器，得到评分为若该的评分未达到给定的阈值σ2，则采用白盒优化方法更新generator生成模型的输入向量z，更新后转到步骤2.1继续执行；否则，即为目标模型t中目标类别的重构图像，白盒优化方法包括快速梯度下降法和投影梯度下降法。
[0036]
进一步，所述反演攻击模块中步骤2.2的具体步骤为：
[0037]
步骤2.21、将vector(g(z))作为搜索分布的期望μ，并初始化搜索分布的参数θ，其中，以θ为参数的搜索分布的期望为μ，vector(g(z))表示将矩阵g(z)转化为向量；
[0038]
步骤2.22、从参数为θn的搜索分布中随机采样得到向量xk，并将xk转化为矩阵形式matrix(xk)，并输入目标模型t，得到目标模型t中目标类别的预测概率t(matrix(xk))，其中，n的初始值为1，θn表示第n轮迭代中搜索分布的参数θ，xk表示第k个向量x；
[0039]
步骤2.23、若得到λ个次采样的向量xk及预测概率t(matrix(xk))，对所有预测概率取均值，记预测概率均值为否则，转到步骤2.22继续采样，其中，t(matrix(xk))表示第k个向量x的预测概率；
[0040]
步骤2.24、若第n轮迭代中，预测概率均值达到给定的阈值σ1，得到搜索分布的参数为θn，并转到步骤2.25，否则，根据nes算法更新搜索分布的参数θn，并转到步骤2.22执行第n＝n+1轮迭代；
[0041]
步骤2.25、利用θn求期望，并将期望作为更新目标，记期望为则为g(z)的更新目标。
[0042]
进一步，所述反演攻击模块中步骤2.24中，根据nes算法更新搜索分布的参数θn的具体步骤为：
[0043]
根据nes算法更新搜索分布的参数θn：其中：
[0044][0045][0046][0047]
其中，η为更新步长，表示对θn的各个分量求偏导，为以θn为参数的搜索分布在目标模型上得分的期望，π(xk|θn)表示以θn为参数的搜索分布上xk的概率密度的概率密度，f-1
是f的逆矩阵，f为费歇尔信息矩阵，中的t指的是矩阵转置。
[0048]
本发明同现有技术相比，其有益效果表现在：
[0049]
一、本发明与基于优化的反演攻击方法相比泛用性更高：
[0050]
gan模型通过训练一对模型(即：generative生成模型和discriminative鉴别器)进行零和博弈来提高模型的生成和判别能力，以便于生成重构的敏感信息，可在黑盒条件下实施进攻，具有更高的泛用性；
[0051]
二、本发明与基于模型训练的反演攻击方法，本发明隐蔽性更强，且攻击效果更好：
[0052]
由于本发明在训练gan模型时无需与目标模型交互，仅在优化阶段会进行交互，相比于基于模型训练的反演攻击方法，其隐蔽性更高，另外，由于本发明利用nes算法对目标模型(目标模型为被攻击模型，为黑盒情况)进行黑盒梯度估计，并利用梯度下降方法对gan模型(gan模型为攻击者训练的模型，属于白盒情况)的生成数据进行白盒优化，能有效提高重构数据的准确性，其攻击效果更好。
附图说明
[0053]
图1为本发明中得到重构图像的流程示意图。
具体实施方式
[0054]
下面将结合附图及具体实施方式对本发明作进一步的描述。
[0055]
一种基于nes算法的黑盒模型反演攻击方法，包括如下步骤：
[0056]
步骤1、基于给定的数据集训练一对gan模型，包括与被攻击模型的输入类型相同的g模型和对g模型的输出进行评分的d模型，其中，被攻击模型即为目标模型，可为人脸识别模型，数据集为pubfig数据集或celeba数据集等；g模型为generator生成模型(其输入为向量，输出为图片)，d模型为discriminator鉴别器(其输入为图片，输出为评分)。具体为：用公开数据集(pubfig数据集或celeba数据集或者自己构造数据集(比如，亲自拍照标注)等)训练一对gan模型(即generator生成模型及discriminator鉴别器)，其中，generator生成模型的输出类型与被攻击模型(黑盒情况下，攻击者只知道被攻击模型的输出结果)的输入类型相同(例如，被攻击模型以人像作为输入时，generator生成模型的输出为人像图片)；discriminator鉴别器的输入为generator生成模型的输出，输出为评分。
[0057]
步骤2、基于训练好的g模型和d模型，结合目标模型的输出，对目标模型发起反演攻击得到重构图像。
[0058]
具体步骤为：
[0059]
步步骤2.1：随机初始化一个输入向量z，并输入generator生成模型得到输出g(z)，输入向量z初始化的方式不仅限于随机初始化，或可利用白盒优化方法通过已有图片反向构造；
[0060]
步骤2.2：利用nes算法计算g(z)的更新目标即通过从搜索分布中随机采样并评估后更新搜索分布来得到优化后的更新目标其中，nes算法是一种黑盒优化方法；
[0061]
具体步骤为：
[0062]
步骤2.21、将vector(g(z))作为搜索分布的期望μ，并初始化搜索分布的参数θ(作为第一轮迭代的参数)，其中，以θ为参数的搜索分布的期望为μ，vector(g(z))表示将矩阵g(z)转化为向量；以多元高斯分布为例，μ为多元高斯分布的期望，∑为多元高斯分布的协方差矩阵，记多元高斯分布为n(μ，∑)，其中，μ初始化为vector(g(z))，∑初始化为对角矩阵，记搜索分布的参数为θ＝(μ，∑)；
[0063]
步骤2.22、从参数为θn的搜索分布中随机采样得到向量xk，并将xk转化为矩阵形式matrix(xk)，并输入目标模型t，得到目标模型t中目标类别(指的是目标模型中的某一个类别，攻击者利用反演攻击来构建该类别对应的数据，例如，通过名字还原出人脸图像，某一个具体的名字为攻击者的目标类别)的预测概率t(matrix(xk))，其中，n的初始值为1，θn表示第n轮迭代中搜索分布的参数θ，xk表示第k个向量x；
[0064]
步骤2.23、若得到λ次采样的向量xk及预测概率t(matrix(xk))，对所有预测概率取均值，记预测概率均值为否则，转到步骤2.22继续采样，其中，t(matrix(xk))表示第k个向量x的预测概率；
[0065]
步骤2.24、若第n轮迭代中，预测概率均值达到给定的阈值σ1，得到搜索分布的参数为θn，并转到步骤2.25，否则，根据nes算法更新搜索分布的参数θn，并转到步骤2.22执行第n＝n+1轮迭代；
[0066]
根据nes算法更新搜索分布的参数θn的具体步骤为：
[0067]
根据nes算法更新搜索分布的参数θn：其中：
[0068][0069][0070][0071]
其中，η为更新步长，表示对θn的各个分量求偏导，为以θn为参数的搜索分布在目标模型上得分的期望，π(xk|θn)表示以θn为参数的搜索分布上xk的概率密度的概率密
度，f-1
是f的逆矩阵，f为费歇尔信息矩阵，中的t指的是矩阵转置。
[0072]
以多元高期分布为例：θn＝(μn，∑n)：
[0073]
以μ的更新公式为例：
[0074][0075]
其中，
[0076][0077][0078]
根据上式即可对μn进行更新，参数∑n的更新同理，最终得到更新后的参数θ
n+1
＝(μ
n+1
，∑
n+1
)。
[0079]
步骤2.25、利用θn求期望，并将期望作为更新目标，记期望为则为g(z)的更新目标。
[0080]
步骤2.3：将更新目标输入discriminator鉴别器，得到评分为若该的评分未达到给定的阈值σ2，则采用白盒优化方法更新generator生成模型的输入向量z，更新后转到步骤2.1继续执行；否则，即为目标模型t中目标类别的重构图像，白盒优化方法包括快速梯度下降法和投影梯度下降法。
[0081]
以上仅是本发明众多具体应用范围中的代表性实施例，对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案，均落在本发明权利保护范围之内。

技术特征：

1.一种基于nes算法的黑盒模型反演攻击方法，其特征在于，包括如下步骤：步骤1、基于给定的数据集训练一对gan模型，包括与被攻击模型的输入类型相同的g模型和对g模型的输出进行评分的d模型，其中，被攻击模型即为目标模型，数据集中数据的类型与目标模型一致；步骤2、基于训练好的g模型和d模型，结合目标模型的输出，对目标模型发起反演攻击得到重构图像。2.根据权利要求1所述的一种基于nes算法的黑盒模型反演攻击方法，其特征在于，所述步骤1中的g模型为generator生成模型，d模型为discriminator鉴别器。3.根据权利要求2所述的一种基于nes算法的黑盒模型反演攻击方法，其特征在于，所述步骤2的具体步骤为：步骤2.1：初始化一个输入向量z，并输入generator生成模型得到输出g(z)；步骤2.2：利用nes算法计算g(z)的更新目标即通过从搜索分布中随机采样并评估后更新搜索分布来得到优化后的更新目标其中，nes算法是一种黑盒优化方法；步骤2.3：将更新目标输入discriminator鉴别器，得到评分为若该的评分未达到给定的阈值σ2，则采用白盒优化方法更新generator生成模型的输入向量z，更新后转到步骤2.1继续执行；否则，即为目标模型t中目标类别的重构图像，白盒优化方法包括快速梯度下降法和投影梯度下降法。4.根据权利要求3所述的一种基于nes算法的黑盒模型反演攻击方法，其特征在于，所述步骤2.2的具体步骤为：步骤2.21、将vector(g(z))作为搜索分布的期望μ，并初始化搜索分布的参数θ，其中，以θ为参数的搜索分布的期望为μ，vector(g(z))表示将矩阵g(z)转化为向量；步骤2.22、从参数为θ
n
的搜索分布中随机采样得到向量x
k
，并将x
k
转化为矩阵形式matrix(x
k
)，并输入目标模型t，得到目标模型t中目标类别的预测概率t(matrix(x
k
))，其中，n的初始值为1，θ
n
表示第n轮迭代中搜索分布的参数θ，x
k
表示第k个向量x；步骤2.23、若得到λ个次采样的向量x
k
及预测概率t(matrix(x
k
))，对所有预测概率取均值，记预测概率均值为否则，转到步骤2.22继续采样，其中，t(matrix(x
k
))表示第k个向量x的预测概率；步骤2.24、若第n轮迭代中，预测概率均值达到给定的阈值σ1，得到搜索分布的参数为θ
n
，并转到步骤2.25，否则，根据nes算法更新搜索分布的参数θ
n
，并转到步骤2.22执行第n＝n+1轮迭代；步骤2.25、利用θ
n
求期望，并将期望作为更新目标，记期望为则为g(z)的更新目标。5.根据权利要求4所述的一种基于nes算法的黑盒模型反演攻击方法，其特征在于，所述步骤2.24中，根据nes算法更新搜索分布的参数θ
n
的具体步骤为：根据nes算法更新搜索分布的参数θ
n
：其中：
其中，η为更新步长，表示对θ
n
的各个分量求偏导，为以θ
n
为参数的搜索分布在目标模型上得分的期望，π(x
k
|θ
n
)表示以θ
n
为参数的搜索分布上x
k
的概率密度的概率密度，f-1
是f的逆矩阵，f为费歇尔信息矩阵，中的t指的是矩阵转置。6.一种基于nes算法的黑盒模型反演攻击系统，其特征在于，包括：模型训练模块：基于给定的数据集训练一对gan模型，包括与被攻击模型的输入类型相同的g模型和对g模型的输出进行评分的d模型，其中，被攻击模型即为目标模型，数据集中数据的类型与目标模型一致；反演攻击模块：基于训练好的g模型和d模型，结合目标模型的输出，对目标模型发起反演攻击得到重构图像。7.根据权利要求6所述的一种基于nes算法的黑盒模型反演攻击系统，其特征在于，所述模型训练模块中的g模型为generator生成模型，d模型为discriminator鉴别器。8.根据权利要求7所述的一种基于nes算法的黑盒模型反演攻击系统，其特征在于，所述反演攻击模块的具体实现步骤为：步骤2.1：初始化一个输入向量z，并输入generator生成模型得到输出g(z)；步骤2.2：利用nes算法计算g(z)的更新目标即通过从搜索分布中随机采样并评估后更新搜索分布来得到优化后的更新目标其中，nes算法是一种黑盒优化方法；步骤2.3：将更新目标输入discriminator鉴别器，得到评分为若该的评分未达到给定的阈值σ2，则采用白盒优化方法更新generator生成模型的输入向量z，更新后转到步骤2.1继续执行；否则，即为目标模型t中目标类别的重构图像，白盒优化方法包括快速梯度下降法和投影梯度下降法。9.根据权利要求8所述的一种基于nes算法的黑盒模型反演攻击系统，其特征在于，所述反演攻击模块中步骤2.2的具体步骤为：步骤2.21、将vector(g(z))作为搜索分布的期望μ，并初始化搜索分布的参数θ，其中，以θ为参数的搜索分布的期望为μ，vector(g(z))表示将矩阵g(z)转化为向量；步骤2.22、从参数为θ
n
的搜索分布中随机采样得到向量x
k
，并将x
k
转化为矩阵形式matrix(x
k
)，并输入目标模型t，得到目标模型t中目标类别的预测概率t(matrix(x
k
))，其中，n的初始值为1，θ
n
表示第n轮迭代中搜索分布的参数θ，x
k
表示第k个向量x；步骤2.23、若得到λ个次采样的向量x
k
及预测概率t(matrix(x
k
))，对所有预测概率取均值，记预测概率均值为否则，转到步骤2.22继续采样，其中，t
(matrix(x
k
))表示第k个向量x的预测概率；步骤2.24、若第n轮迭代中，预测概率均值达到给定的阈值σ1，得到搜索分布的参数为θ
n
，并转到步骤2.25，否则，根据nes算法更新搜索分布的参数θ
n
，并转到步骤2.22执行第n＝n+1轮迭代；步骤2.25、利用θ
n
求期望，并将期望作为更新目标，记期望为则为g(z)的更新目标。10.根据权利要求9所述的一种基于nes算法的黑盒模型反演攻击系统，其特征在于，所述反演攻击模块中步骤2.24中，根据nes算法更新搜索分布的参数θ
n
的具体步骤为：根据nes算法更新搜索分布的参数θ
n
：其中：其中：其中：其中，η为更新步长，表示对θ
n
的各个分量求偏导，为以θ
n
为参数的搜索分布在目标模型上得分的期望，π(x
k
|θ
n
)表示以θ
n
为参数的搜索分布上x
k
的概率密度的概率密度，f-1
是f的逆矩阵，f为费歇尔信息矩阵，中的t指的是矩阵转置。

技术总结

本发明公开了一种基于NES算法的黑盒模型反演攻击方法及系统，属于人工智能安全领域，解决现有技术中基于优化的反演攻击方法实用性相对较低，和基于模型训练的反演攻击方法隐藏性差、耗时长等问题。本发明基于给定的数据集训练一对GAN模型，包括与被攻击模型的输入类型相同的G模型和对G模型的输出进行评分的D模型，其中，被攻击模型即为目标模型；基于训练好的G模型和D模型，结合目标模型的输出，对目标模型发起反演攻击得到重构图像。本发明用于黑盒模型反演攻击。黑盒模型反演攻击。黑盒模型反演攻击。