基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法



1.本发明属于智能交通与机器学习信息安全的交叉技术领域,具体涉及一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法。


背景技术:



2.近年来,随着我国车辆保有量的急剧增加,交通拥堵已成为全国大中小城市普遍存在的交通问题,带来的负面问题也愈加严重,因此,交通拥堵问题的缓解刻不容缓。交叉口是道路交通网络的关键节点和主要瓶颈,因此交叉口信号智能控制在缓解交通拥堵方面起着至关重要的作用。同时,多交叉口交通信号控制越来越成为人们的研究热点。
3.强化学习(rl)作为交通信号控制问题的一种机器学习技术,已经产生了令人印象深刻的结果。强化学习不需要事先对环境有全面的了解,例如交通流量。相反,他们通过与环境进行不断地交互试错学习最优策略,从环境中获得观察状态后,对环境施加动作可以得到环境反馈的标量奖励值,在这过程中进行不断地学习最终使累积报酬最大化。
4.在多智能体强化学习中包含了协同、博弈等控制机制。在区域交通信号控制中,多智能体协同机制被用于控制区域交通流通。一些研究学者通过全局状态、全局奖励、平均奖励、q值迁移等方法实现多智能体协同控制。尽管多智能体表现出巨大的优势,但它易受到对抗性攻击,例如:策略诱导攻击、策略定时攻击、基于值函数的对抗攻击、木马攻击等。
5.作为人工智能领域的研究热点,多智能体深度强化学习在机器人控制、计算机视觉以及智能交通等各个领域都取得了一定的成功。但是,其遭到攻击的可能性以及它是否具有强大的抵抗能力也成为近年来的热门话题。因此,我们在深度强化学习中选择了具有代表性的deep q network(dqn)算法,将多交叉口信号灯协同控制作为应用场景,并采用策略诱导实现多智能体协同机制的攻击。


技术实现要素:



6.为了克服现有技术存在的上述不足,本发明提供了一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法,能够在训练的最后阶段通过对替代模型计算扰动交通状态并传递给目标智能体,使得目标智能体采取攻击者指定的动作,大幅降低区域多交叉口的车辆通行效率。
7.本发明采用的技术方案是:
8.一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法,包括以下步骤:
9.步骤1:在多交叉口的道路网格上训练强化学习dqn多智能体协同控制模型,训练完成后模型的网络参数不再发生变化,且具有较高的迁移性,在多交叉口测试过程中体现出高流畅度且无拥堵发生;
10.步骤2:再将训练数据用于训练替代模型和对手策略,其中替代模型用于后续生成扰动交通状态迫使目标智能体采取对手策略,对手策略被训练为采取当前交通状态下的次优信号灯相位
11.步骤3:在训练的最后一个阶段,从经验池提取一批训练样本,将目标智能体下一时刻的交通状态数据输入到对手策略中生成指定的对手动作,根据该对手动作,将交通状态数据输入到替代模型中并生成扰动状态迫使替代模型采取对手动作;
12.步骤4:将上述的扰动状态添加到原始交通状态数据并输入到目标智能体中,目标智能体将输出对手策略生成的对手动作,此时的目标q值会因为动作的改变而发生变化,使得目标智能体无法学习到最优策略,最终在相邻路口q值传递过程中也会对邻接交叉口的q值造成变化导致协同机制被破坏,最后在sumo上对攻击前后的多交叉口智能体模型进行流畅度对比。
13.进一步的,所述步骤1中多交叉口的道路是十字交叉口的道路;首先在多交叉口道路网格上训练强化学习多智能体协同模型,对进入多交叉口的所有道路上的车辆进行离散交通状态编码;由于输入的交通状态数据为所有路口的全局状态信息,因此为了减少输入数据的同时保证决策不被影响,将每个路口的前半部分进行车辆状态的采集;将多交叉口从路段入口到状态采集终点之间长度为l的道路k等距离划分为等间距的c个离散单元,其中k=1,2,3,4;将t时刻第m个交叉口的道路k的车辆位置表示为车辆位置矩阵s
mk
(t),其中m=1,2,3,4;当车辆头部位于某个离散单元上时,则车辆位置矩阵s
mk
(t)对应第i个位置的值为1,否则值为0,其中i=1,2,

,c;公式表示为:
[0014][0015]
其中表示车辆位置矩阵s
mk
(t)第i个位置的值;将t时刻四个交叉口输入端的车辆位置矩阵s
mk
(t)按行首尾拼接构成s
t
,公式表示为:
[0016]st
=[s
11
(t),s
12
(t),......,s
43
(t),s
44
(t)]
ꢀꢀꢀ
(2)再把s
t
作为t时刻的全局交通状态输入到智能体模型中训练,智能体模型输出相应的动作即红绿灯将要执行的相位。
[0017]
进一步的,定义交通灯的相位作为动作空间a={a1,a2,a3,a4},其中a1为东西方向绿灯,a2为东西方向左转绿灯,a3为南北方向绿灯,a4为南北方向左转绿灯;在运行时设an的相位的初始时长为m,黄灯相位时长为n;在t时刻将全局交通状态s
t
输入到智能交通灯模型中,智能交通灯选择相位an,其中n=1,2,3,4;当an相位执行完后,智能交通灯从环境中采集t+1时刻的状态s
t+1
,然后选择相位a
n’,若an≠a
n’,则an相位执行时间不再延长,即an相位结束,在an相位结束后智能交通灯执行黄灯相位,在黄灯相位结束后,执行a
n’相位;若an=a
n’,则an相位执行时间延长m;将第m个交叉口的奖励设置为每个交叉口的两个连续动作之间路口车辆等待时间之差,公式表示为:
[0018][0019]
其中w
tm
分别表示第m个交叉口t-1时刻和t时刻进入该交叉口所有车道的车辆总体等待时间,根据执行的动作再按照奖励值对动作进行评判,从而不断更新网络的参数;
[0020]
所使用的强化学习模型为deep q network,简化为dqn,以一个交叉口的智能体模型为例进行说明;用一个深度神经网络作为q值网络,初始化网络参数,网络的输出就是q
值,隐含层采用relu非线性激活函数,其中输出层的神经元个数与每个交叉口的动作空间大小相等;公式表示为:
[0021]
q=h(ws
t
+b)
ꢀꢀꢀ
(4)
[0022]
其中w代表神经网络的权重,s
t
为网络的输入,b为偏置,h(.)表示relu激活函数;dqn的损失函数为:
[0023][0024]
l
t
=(y
t-q(s
t
,an;θ

))2ꢀꢀꢀ
(6)
[0025]
其中代表第m个交叉口t时刻的目标值,an,an′
∈a表示智能体输出的动作即红绿灯相位,γ为学习率,w
m,m

表示交叉口m和相邻交叉口m’的权重系数,θm′
和θm′
分别代表第m个交叉口和相邻交叉口m’的神经网络参数;dqn的估计网络的参数w和b是随着时间步长逐步更新的,目标网络的参数w’和b’的更新是每隔时间t从估计网络直接复制网络的参数,公式表示为:
[0026][0027][0028]
所述步骤2的具体过程如下:
[0029]
将所述步骤1中正常训练的智能体策略记为π,确定其中一个要攻击的目标智能体,为了多交叉口信号灯协同控制系统受到异常交通状态的影响,需要训练攻击者指定的对手策略,记为π
adv
;通过对目标交叉口的智能体选择次优动作进行对手策略的训练,并将对手策略用于指定目标智能体要采取的异常动作,从而延迟区域多交叉口网络的车辆流通时间;此外,采用所述步骤1中的训练数据训练该目标智能体的替代模型,攻击者通过该替代模型计算扰动交通状态使得目标智能体采取对手策略的指定行为。
[0030]
进一步的,所述步骤3的具体过程如下:
[0031]
对多交叉口智能体进行训练时,仅在最后一轮训练过程中让目标智能体采取对手策略指定的异常动作破坏多智能体的协同,而在其余轮次按照正常训练过程进行;
[0032]
当智能体的训练进行到最后一个阶段时,此时目标智能体与替代模型观察到交通状态后采取的动作大致相同;在每个训练阶段的时间步,攻击者通过对手策略指定异常动作采用快速梯度下降攻击算法,沿着梯度方向并根据符号函数进行赋值生成异常动作相对应的扰动δ
t+1
,公式表示为:
[0033][0034]
其中ε代表扰动系数,a’代表此时红绿灯执行的相位,sign代表符号函数,θ为替代模型的网络参数,l(θ,s
t+1
,a

)代表t时刻替代模型的损失函数;
[0035]
对扰动δt+1进行降序排序得到新的排序数组:
[0036]
[0037]
在δ
t+1

中按顺序读取扰动并添加到原始交通状态s
t+1
中生成异常交通状态,直至该异常交通状态输入到目标智能体中执行对手策略指定的异常动作a’,将异常交通状态记为并且该扰动状态下采取的动作使得同时,该异常交通状态作为目标智能体的下一个状态s
t+1
并存入经验池中,当从经验池中取出数据进行训练时,处于训练过程中的目标智能体观察到异常交通状态将执行攻击者指定的动作并且该异常动作会被误认为最优动作。
[0038]
进一步的,所述步骤4的具体过程如下:
[0039]
由于多交叉口交通网络的训练过程中包含多智能体的协同机制,即相邻智能体之间存在q值迁移机制;当正常训练的目标智能体受到策略诱导攻击时,将会执行异常动作此时目标智能体的q值会发生变化,同时当前智能体的q值会在相邻交叉口的q值传递过程中对相邻智能体的q值造成变化导致多智能体协同机制被破坏,最终无法学习到最优协同策略;最后在sumo上对正常模型和异常模型在多交叉口网格上进行流畅度对比。
[0040]
本发明的技术构思为:根据已有的强化学习dqn算法并加入多智能体协同机制训练多交叉口信号灯协同控制模型,利用替代模型计算出采取对手策略指定的异常动作需要的扰动大小,并将扰动状态传递给目标智能体使其输出指定的异常动作,从而破坏多智能体的协同机制,最后在sumo上对多交叉口网格的车辆流通效率进行对比。
[0041]
与现有技术相比,本发明的有益效果主要表现在:
[0042]
1、利用策略诱导的中毒攻击方法破坏多智能体训练过程的协同机制,并且仅在训练的最后阶段利用fgsm攻击算法生成执行异常动作所需的扰动,最终传递给目标智能体执行异常动作;
[0043]
2、本发明仅对训练的最后一轮对目标智能体进行异常策略的诱导,并且能够高效地生成扰动交通状态,增加多交叉口网格地车辆等待时间,使交通路口流通度大大降低。
附图说明
[0044]
图1是多智能体协同机制示意图。
[0045]
图2是策略诱导攻击的总体流程图。
具体实施方式
[0046]
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
[0047]
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
[0048]
下面将参考附图并结合示例性实施例来详细说明本发明。
[0049]
实施例1
[0050]
参照图1~图2,基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法,本发明以典型十字多交叉路口为例,包括以下步骤:
[0051]
步骤1,首先在多交叉口道路网格上训练强化学习多智能体协同模型,对进入多交叉口的所有道路上的车辆进行离散交通状态编码;由于输入的交通状态数据为所有路口的全局状态信息,因此为了减少输入数据的同时保证决策不被影响,将每个路口的前半部分进行车辆状态的采集;将多交叉口从路段入口到状态采集终点之间长度为l的道路k等距离划分为等间距的c个离散单元,其中k=1,2,3,4;将t时刻第m个交叉口的道路k的车辆位置表示为车辆位置矩阵s
mk
(t),其中m=1,2,3,4;当车辆头部位于某个离散单元上时,则车辆位置矩阵s
mk
(t)对应第i个位置的值为1,否则值为0,其中i=1,2,

,c;公式表示为:
[0052][0053]
其中表示车辆位置矩阵s
mk
(t)第i个位置的值;将t时刻四个交叉口输入端的车辆位置矩阵s
mk
(t)按行首尾拼接构成s
t
,公式表示为:
[0054]st
=[s
11
(t),s
12
(t),......,s
43
(t),s
44
(t)]
ꢀꢀꢀ
(2)再把s
t
作为t时刻的全局交通状态输入到智能体模型中训练,智能体模型输出相应的动作即红绿灯将要执行的相位。
[0055]
定义交通灯的相位作为动作空间a={a1,a2,a3,a4},其中a1为东西方向绿灯,a2为东西方向左转绿灯,a3为南北方向绿灯,a4为南北方向左转绿灯;在运行时设an的相位的初始时长为m,黄灯相位时长为n;在t时刻将全局交通状态s
t
输入到智能交通灯模型中,智能交通灯选择相位an,其中n=1,2,3,4;当an相位执行完后,智能交通灯从环境中采集t+1时刻的状态s
t+1
,然后选择相位a
n’,若an≠a
n’,则an相位执行时间不再延长,即an相位结束,在an相位结束后智能交通灯执行黄灯相位,在黄灯相位结束后,执行a
n’相位;若an=a
n’,则an相位执行时间延长m;将第m个交叉口的奖励r
tm
设置为每个交叉口的两个连续动作之间路口车辆等待时间之差,公式表示为:
[0056][0057]
其中w
tm
分别表示第m个交叉口t-1时刻和t时刻进入该交叉口所有车道的车辆总体等待时间,根据执行的动作再按照奖励值对动作进行评判,从而不断更新网络的参数;
[0058]
所使用的强化学习模型为deep q network,简化为dqn,以一个交叉口的智能体模型为例进行说明;用一个深度神经网络作为q值网络,初始化网络参数,网络的输出就是q值,隐含层采用relu非线性激活函数,其中输出层的神经元个数与每个交叉口的动作空间大小相等;公式表示为:
[0059]
q=h(ws
t
+b)
ꢀꢀꢀ
(4)
[0060]
其中w代表神经网络的权重,s
t
为网络的输入,b为偏置,h(.)表示relu激活函数;dqn的损失函数为:
[0061][0062]
l
t
=(y
t-q(s
t
,an;θ

))2ꢀꢀꢀ
(6)
[0063]
其中代表第m个交叉口t时刻的目标值,an,an′
∈a表示智能体输出的动作即红
绿灯相位,γ为学习率,w
m,m

表示交叉口m和相邻交叉口m’的权重系数,θm′
和θm′
分别代表第m个交叉口和相邻交叉口m’的神经网络参数;dqn的估计网络的参数w和b是随着时间步长逐步更新的,目标网络的参数w’和b’的更新是每隔时间t从估计网络直接复制网络的参数,公式表示为:
[0064][0065][0066]
步骤2,将所述步骤1中正常训练的智能体策略记为π,确定其中一个要攻击的目标智能体,为了多交叉口信号灯协同控制系统受到异常交通状态的影响,需要训练攻击者指定的对手策略,记为π
adv
;通过对目标交叉口的智能体选择次优动作进行对手策略的训练,并将对手策略用于指定目标智能体要采取的异常动作,从而延迟区域多交叉口网络的车辆流通时间;此外,采用所述步骤1中的训练数据训练该目标智能体的替代模型,攻击者通过该替代模型计算扰动交通状态使得目标智能体采取对手策略的指定行为。
[0067]
步骤3,对多交叉口智能体进行训练时,仅在最后一轮训练过程中让目标智能体采取对手策略指定的异常动作破坏多智能体的协同,而在其余轮次按照正常训练过程进行;
[0068]
当智能体的训练进行到最后一个阶段时,此时目标智能体与替代模型观察到交通状态后采取的动作大致相同;在每个训练阶段的时间步,攻击者通过对手策略指定异常动作采用快速梯度下降攻击算法,沿着梯度方向并根据符号函数进行赋值生成异常动作相对应的扰动δ
t+1
,公式表示为:
[0069][0070]
其中ε代表扰动系数,a’代表此时红绿灯执行的相位,sign代表符号函数,θ为替代模型的网络参数,l(θ,s
t+1
,a

)代表t时刻替代模型的损失函数;
[0071]
对扰动δt+1进行降序排序得到新的排序数组:
[0072][0073]
在δ
t+1

中按顺序读取扰动并添加到原始交通状态s
t+1
中生成异常交通状态,直至该异常交通状态输入到目标智能体中执行对手策略指定的异常动作a’,将异常交通状态记为并且该扰动状态下采取的动作使得同时,该异常交通状态作为目标智能体的下一个状态s
t+1
并存入经验池中,当从经验池中取出数据进行训练时,处于训练过程中的目标智能体观察到异常交通状态将执行攻击者指定的动作并且该异常动作会被误认为最优动作。
[0074]
步骤4,由于多交叉口交通网络的训练过程中包含多智能体的协同机制,即相邻智能体之间存在q值迁移机制;当正常训练的目标智能体受到策略诱导攻击时,将会执行异常动作此时目标智能体的q值会发生变化,同时当前智能体的q值会在相邻
交叉口的q值传递过程中对相邻智能体的q值造成变化导致多智能体协同机制被破坏,最终无法学习到最优协同策略;最后在sumo上对正常模型和异常模型在多交叉口网格上进行流畅度对比。
[0075]
实施例2:实际实验中的数据
[0076]
(1)选取实验数据
[0077]
实验数据是由sumo上的多交叉口网格随机生成的1000辆汽车,每辆汽车大小、生成位置距离交叉路口的距离和汽车从生成到通过路口的速度都是相同的。以其中的某个交叉口为例进行说明,交通路口红绿灯相位的初始时间是绿灯10秒,黄灯2秒。从停车线开始长度为210米的4条道路划分为长度为7米的30个离散单元,为了减少输入的数量,仅将距离停车线140米的20个离散单元作为一个交叉口的交通状态。交通路口输入端采集到的交通状态s
t
用来记录四个交叉口输入端车辆的数量以及所处位置。
[0078]
(2)实验结果
[0079]
在结果分析中,我们使用了多交叉口网格作为实验场景,并加入q值迁移机制训练强化学习dqn多智能体协同模型,采用策略诱导攻击方法对训练过程中的协同机制进行破坏。最后将有攻击和无攻击两种情况下训练的多智能体模型进行对比测试,测试结果如表1所示,结果显示本发明能够高效地生成扰动交通状态,破坏多交叉口之间的协同,增加多交叉口网格的车辆等待时间。
[0080]
表1 多智能体模型对比测试结果
[0081] 车辆平均等待时间正常协同12.56s策略诱导16.87s
[0082]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

技术特征:


1.一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法,包括以下步骤:步骤1:在多交叉口的道路网格上训练强化学习dqn多智能体协同控制模型,训练完成后模型的网络参数不再发生变化,且具有较高的迁移性,在多交叉口测试过程中体现出高流畅度且无拥堵发生;步骤2:再将训练数据用于训练替代模型和对手策略,其中替代模型用于后续生成扰动交通状态迫使目标智能体采取对手策略,对手策略被训练为采取当前交通状态下的次优信号灯相位;步骤3:在训练的最后一个阶段,从经验池提取一批训练样本,将目标智能体下一时刻的交通状态数据输入到对手策略中生成指定的对手动作,根据该对手动作,将交通状态数据输入到替代模型中并生成扰动状态迫使替代模型采取对手动作;步骤4:将上述的扰动状态添加到原始交通状态数据并输入到目标智能体中,目标智能体将输出对手策略生成的对手动作,此时的目标q值会因为动作的改变而发生变化,使得目标智能体无法学习到最优策略,最终在相邻路口q值传递过程中也会对邻接交叉口的q值造成变化导致协同机制被破坏,最后在sumo上对攻击前后的多交叉口智能体模型进行流畅度对比。2.如权利要求1所述的一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法,其特征在于,所述步骤1中多交叉口的道路是十字交叉口的道路;首先在多交叉口道路网格上训练强化学习多智能体协同模型,对进入多交叉口的所有道路上的车辆进行离散交通状态编码;由于输入的交通状态数据为所有路口的全局状态信息,因此为了减少输入数据的同时保证决策不被影响,将每个路口的前半部分进行车辆状态的采集;将多交叉口从路段入口到状态采集终点之间长度为l的道路k等距离划分为等间距的c个离散单元,其中k=1,2,3,4;将t时刻第m个交叉口的道路k的车辆位置表示为车辆位置矩阵s
mk
(t),其中m=1,2,3,4;当车辆头部位于某个离散单元上时,则车辆位置矩阵s
mk
(t)对应第i个位置的值为1,否则值为0,其中i=1,2,

,c;公式表示为:其中表示车辆位置矩阵s
mk
(t)第i个位置的值;将t时刻四个交叉口输入端的车辆位置矩阵s
mk
(t)按行首尾拼接构成s
t
,公式表示为:s
t
=[s
11
(t),s
12
(t),......,s
43
(t),s
44
(t)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)再把s
t
作为t时刻的全局交通状态输入到智能体模型中训练,智能体模型输出相应的动作即红绿灯将要执行的相位。3.如权利要求2所述的一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法,其特征在于,定义交通灯的相位作为动作空间a={a1,a2,a3,a4},其中a1为东西方向绿灯,a2为东西方向左转绿灯,a3为南北方向绿灯,a4为南北方向左转绿灯;在运行时设a
n
的相位的初始时长为m,黄灯相位时长为n;在t时刻将全局交通状态s
t
输入到智能交通灯模型中,智能交通灯选择相位a
n
,其中n=1,2,3,4;当a
n
相位执行完后,智能交通灯从环境中采集t+1时刻的状态s
t+1
,然后选择相位a
n’,若a
n
≠a
n’,则a
n
相位执行时间不再延长,即a
n
相位结束,在a
n
相位结束后智能交通灯执行黄灯相位,在黄灯相位结束后,执行a
n’相位;若a
n

a
n’,则a
n
相位执行时间延长m;将第m个交叉口的奖励r
tm
设置为每个交叉口的两个连续动作之间路口车辆等待时间之差,公式表示为:其中w
tm
分别表示第m个交叉口t-1时刻和t时刻进入该交叉口所有车道的车辆总体等待时间,根据执行的动作再按照奖励值对动作进行评判,从而不断更新网络的参数;所使用的强化学习模型为deep q network,简化为dqn,以一个交叉口的智能体模型为例进行说明;用一个深度神经网络作为q值网络,初始化网络参数,网络的输出就是q值,隐含层采用relu非线性激活函数,其中输出层的神经元个数与每个交叉口的动作空间大小相等;公式表示为:q=h(ws
t
+b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中w代表神经网络的权重,s
t
为网络的输入,b为偏置,h(.)表示relu激活函数;dqn的损失函数为:l
t
=(y
t-q(s
t
,a
n
;θ

))2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)其中代表第m个交叉口t时刻的目标值,a
n
,a
n

∈a表示智能体输出的动作即红绿灯相位,γ为学习率,w
m,m

表示交叉口m和相邻交叉口m’的权重系数,θ
m

和θ
m

分别代表第m个交叉口和相邻交叉口m’的神经网络参数;dqn的估计网络的参数w和b是随着时间步长逐步更新的,目标网络的参数w’和b’的更新是每隔时间t从估计网络直接复制网络的参数,公式表示为:为:所述步骤2的具体过程如下:将所述步骤1中正常训练的智能体策略记为π,确定其中一个要攻击的目标智能体,为了多交叉口信号灯协同控制系统受到异常交通状态的影响,需要训练攻击者指定的对手策略,记为π
adv
;通过对目标交叉口的智能体选择次优动作进行对手策略的训练,并将对手策略用于指定目标智能体要采取的异常动作,从而延迟区域多交叉口网络的车辆流通时间;此外,采用所述步骤1中的训练数据训练该目标智能体的替代模型,攻击者通过该替代模型计算扰动交通状态使得目标智能体采取对手策略的指定行为。4.如权利要求2所述的一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法,其特征在于,所述步骤3的具体过程如下:对多交叉口智能体进行训练时,仅在最后一轮训练过程中让目标智能体采取对手策略指定的异常动作破坏多智能体的协同,而在其余轮次按照正常训练过程进行;当智能体的训练进行到最后一个阶段时,此时目标智能体与替代模型观察到交通状态
后采取的动作大致相同;在每个训练阶段的时间步,攻击者通过对手策略指定异常动作采用快速梯度下降攻击算法,沿着梯度方向并根据符号函数进行赋值生成异常动作相对应的扰动δ
t+1
,公式表示为:其中ε代表扰动系数,a’代表此时红绿灯执行的相位,sign代表符号函数,θ为替代模型的网络参数,l(θ,s
t+1
,a

)代表t时刻替代模型的损失函数;对扰动δt+1进行降序排序得到新的排序数组:在δ
t+1

中按顺序读取扰动并添加到原始交通状态s
t+1
中生成异常交通状态,直至该异常交通状态输入到目标智能体中执行对手策略指定的异常动作a’,将异常交通状态记为并且该扰动状态下采取的动作使得同时,该异常交通状态作为目标智能体的下一个状态s
t+1
并存入经验池中,当从经验池中取出数据进行训练时,处于训练过程中的目标智能体观察到异常交通状态将执行攻击者指定的动作并且该异常动作会被误认为最优动作。5.如权利要求2所述的一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法,其特征在于,所述步骤4的具体过程如下:由于多交叉口交通网络的训练过程中包含多智能体的协同机制,即相邻智能体之间存在q值迁移机制;当正常训练的目标智能体受到策略诱导攻击时,将会执行异常动作此时目标智能体的q值会发生变化,同时当前智能体的q值会在相邻交叉口的q值传递过程中对相邻智能体的q值造成变化导致多智能体协同机制被破坏,最终无法学习到最优协同策略;最后在sumo上对正常模型和异常模型在多交叉口网格上进行流畅度对比。

技术总结


本发明公开了一种基于策略诱导对多交叉口信号灯协同控制的中毒攻击方法,采用强化学习深度Q学习算法(DQN)训练多交叉口信号灯协同控制模型,根据策略诱导攻击方法分别训练替代模型和对手策略,利用训练过程中经验池的样本重构交通状态,使得目标智能体采取对手策略的指定动作,最终对训练过程中传递给邻接路口的Q值发生变化导致协同机制被恶意破坏。本发明能够在训练的最后阶段通过对替代模型计算扰动交通状态并传递给目标智能体,使得目标智能体采取攻击者指定的动作,大幅降低区域多交叉口的车辆通行效率。叉口的车辆通行效率。叉口的车辆通行效率。


技术研发人员:

徐东伟 王达 李呈斌

受保护的技术使用者:

浙江工业大学

技术研发日:

2022.08.29

技术公布日:

2022/12/1

本文发布于:2024-09-20 15:23:07,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/32474.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:交叉口   智能   相位   状态
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议