基于强化学习的车联网资源分配方法、存储介质及设备



1.本发明涉及无线通信技术领域,具体涉及一种基于强化学习的车联网资源分配方法、存储介质及设备。


背景技术:



2.研究车联网资源分配中,如何保证车载网络能提供令人满意的服务质量(qos)是主要的挑战。车辆在高速行驶的环境下,合适的资源分配方案可以避开例如不恰当的信道(拥堵或者错误)、拥赛的频谱等一系列影响qos的因素,这与车联网的开发与利用息息相关,具有广泛的应用前景。
3.强化学习(rl)可以有效的解决顺序决策类问题,目前相关的研究发现也充分说明了rl在解决车联网资源分配问题上,拥有巨大的潜力
‑‑
如在《deep reinforcement learning resource allocation in wireless sensor networks with energy harvesting and relay》一文中,用深度强化学习(drl)在构建马尔可夫决策过程的模型中开发的资源分配策略,用以解决由于信道衰落、能量到达不足和随机性、传感器可能部署不当等,而出现的无线传感器网络中传感器节点之间的通信干扰问题;在《spectrum sharing in vehicular networks based on multi-agent reinforcement learning》一文中,将资源共享建模为多智能体强化学习(rl)问题,用以解决多个车对车(v2v)链路重复使用的车对基础设施(v2i)链路占用的频谱分配问题。
4.在已有的基于rl的车联网资源分配方法的研究中,最常见的办法是假定功率一定,再对频谱进行分配,得到的是在功率确定情况下的实验结果。而在实际应用中,车辆在高速行驶的情况下,车联网每个链路的功率应该是实时变化的,导致该类算法很难得到与实际情况中车辆在高速行驶下的车联网运行相匹配的实验结果,这极不利于我们对车联网资源分配的研究,且该研究方法不仅忽略了功率条件与环境变化所带来的变量,同时也没能将频谱与功率的条件进行综合观察与分析,甚至导致实验结果与现实过程生产造成较大偏差。


技术实现要素:



5.为了克服上述技术缺陷,本发明提供基于强化学习的车联网资源分配方法、存储介质及设备,其能提高车联网资源分配的可靠性。
6.为了解决上述问题,本发明按以下技术方案予以实现:
7.第一方面,一种基于强化学习的车联网资源分配方法,包括步骤:
8.s100:车联网环境模块将当前的状态s、当前的动作a、当前的奖励r以及当前动作作用于当前奖励后产生的下一个状态s+,传输到初始经验回放模块;
9.s200:经验回放设置优化环节,将放在初始经验回放区的初始的数据通过余弦相似性模块进行样本过滤,过滤的样本包括当前的状态s、当前的动作a、当前的奖励r以及当前动作作用于当前奖励后产生的下一个状态s+,将过滤后的样本存放在最终经验回放区
中,并将数据分别传输到频谱分配模块和发射功率分配模块中,用以训练对应的target网络;
10.s300:频谱分配模块基于dqn算法输出一个频谱子带的分配动作,传输至最终动作策略模块中,发射功率分配模块基于ddpg算法输出一个功率分配动作传输至最终动作策略模块中,最终动作策略模块将来自两个模块的动作复合,输出最终的动作,作用于车联网环境模块,并转至步骤s100。
11.进一步的,所述奖励r表示为:
12.其中:
13.表示在时隙t中,第m个子频带上的第n个v2i链路的信道容量;
14.pk是个二进制数,如果pk=1,则第k个v2v链路使用第m个子频带,否则pk=0;
15.表示在时隙t中,第m个子频带上的第k个v2v链路的容量;
16.bk表示第m个子频带上的第k个v2v链路的有效负荷;超参数设为β。
17.进一步的,所述频谱分配模块采用ε-greedy策略,所述频谱分配模块训练target网络包括步骤:
18.s210:在开始前车联网环境输出s到频谱分配模块,而频谱分配模块将会随机选择一个动作,然后将动作传出至车联网环境,车联网环境对相应动作产生新的环境条件s+,在第二次选择动作时会进行一个判断,以1-ε的概率选择对应q值最高的动作,或是以ε的概率选择一个随机的动作输出,随后会存放在初始经验回放区模块;
19.s220:q网络从车联网环境模块中获取的车联网环境状态s,经过运算后得到一个动作,动作存放在初始经验回放区模块后,将会作用于车联网环境模块,产生一个新的状态提供给所述q网络获取,重复该步骤直至初始经验回放区模块放满预设的数据,频谱分配模块将开始更新q网络。
20.进一步的,所述更新q网络包括步骤:
21.s221:最终经验回放区中通过采样获取到当前奖励r和下一状态s+,并输出给target网络;
22.s222:target网络利用r和s+计算出下一q值y,并将y送入到q网络中,q网络通过y计算loss值,根据loss值开始更新q网络;
23.s223:当q网络更新次数达到设定第一阈值,q网络会将所有的参数都复制给target网络,并用以更新target网络,更新之后将继续从环境中得到相应状态,并转至步骤s210。
24.进一步的,所述发射功率分配模块采用uhlenbeck-ornstein随机过程,在选择动作时加入了随机噪声,通过采样得到相应的动作,随后将采样得到的动作存放在初始经验回放区模块。
25.进一步的,所述发射功率分配模块包括actor模块和critic模块,环境采样得到的状态、奖励和下一个状态会输入到actor模块,actor模块将输入的状态转换为状态、行动、奖励和下一个状态,并存放在初始经验回放区模块,用于更新actor模块与critic模块的数
据集。
26.进一步的,所述更新critic模块包括步骤:
27.根据loss函数和标签值yi,利用back-propagation得到q网络的当前梯度,其中loss函数定义为均方误差,标签值的yi由target策略网络和target q网络联合计算得出;
28.根据梯度利用adam optimizer法开始更新q网络;
29.当q网络更新次数达到第二阈值时,采用加权模式开始更新target q网络,其中q网络的参数权重为τ,当前target q网络的参数权重为1-τ。
30.进一步的,所述更新actor模块包括步骤:
31.采用函数j(θ)衡量策略网络的优劣,表示如下:j(θ)=∫sρ(s)qθ(s,θ(s))ds,其中θ为策略网络的参数、ρ(s)是uhlenbeck-ornstein随机噪声后服从正态分布的状态s的分布函数,q
θ
(s,θ(s))为按照策略网络选择动作后,可以产生的q值;
32.用monte-carlo方法求得j(θ)函数的梯度,并采用adam optimizer法更新策略网络参数θ;
33.当策略网络更新次数达到第三阈值后,采用加权模式开始更新target策略网络,其中策略网络的参数权重为τ,当前target策略网络的参数权重为1-τ。
34.第二方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面所述的基于强化学习的车联网资源分配方法。
35.第三方面,本发明提供一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如第一方面所述的基于强化学习的车联网资源分配方法。
36.与现有技术相比,本发明具有以下有益效果:
37.本发明通过将环境变化的变量作为参量计算,提高车联网资源分配的可靠性;通过将频谱与功率条件复合分析,使车联网资源分配结果偏差降低;通过对经验回放加入了余弦相似性过滤,使整个系统更快的趋向于收敛。
附图说明
38.下面结合附图对本发明的具体实施方式作进一步详细的说明,其中:
39.图1为本实施例1基于强化学习的车联网资源分配方法的应用场景图;
40.图2为本实施例1基于强化学习的车联网资源分配方法的流程图;
41.图3为本实施例1基于强化学习的车联网资源分配的流程框图;
42.图4为本实施例1基于强化学习的车联网资源分配方法的结构框图;
43.图5为本实施例1基于强化学习的车联网资源分配方法步骤s200的流程图;
44.图6为本实施例1频谱分配模块内部结构图;
45.图7为本实施例1基于强化学习的车联网资源分配方法步骤s220的流程图;
46.图8为本实施例1发射功率分配模块内部结构图。
47.附图标记说明:
48.1、车联网环境模块;2、频谱分配模块;3、发射功率分配模块;4、最终动作策略模块;5、初始经验回放区模块;6、余弦相似性过滤模块;7、最终经验回放区模块;21、第一当前状态获取;22、第一随机动作选择;23、第一q网络;24、第一target q网络;25、策略计算;31、actor模块;32、critic模块;33、第二当前状态获取;34、第二随机动作选择;311、target策略网络;312、策略网络;313、第一优化模块;321、第二target q网络;322、第二q网络;323、第二优化模块;8、v2v链路;9、v2i链路;10、车联网用户;11、;12、车辆行驶方向。
具体实施方式
49.以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
50.需要注意的是,本文中所提及的序号,如s1、s2
……
,该些序号仅仅是作为步骤与步骤之间的区分,并不代表该些步骤必须要按照序号的顺序严格执行。
51.实施例1
52.本实施例提供的基于强化学习的车联网资源分配方法,应用于图1所示的车联网环境中。如图1所示的对于高速行驶的车辆环境中的车联网,v2x网络可以分成v2i链路和v2v链路,其中v2i链路提供高速的信息流,保证用户的娱乐需求、v2i提供超高稳定性的连接用来传输用户的安全信息。因为车联网可用的链路资源在一定的空间内是有限的,而且车辆在高速行驶的过程中会导致有限的资源的一部分在某些特定的情况不可用。
53.为了解决上述问题,如图2、图3所示,本实施例提供一种基于多智能体强化学习的车联网资源分配方法,包括步骤:
54.s100:车联网环境模块将当前的状态s、当前的动作a、当前的奖励r以及当前动作作用于当前奖励后产生的下一个状态s+,传输到初始经验回放模块;
55.s200:经验回放设置优化环节,将放在初始经验回放区的初始的数据通过余弦相似性模块进行样本过滤,过滤的样本包括当前的状态s、当前的动作a、当前的奖励r以及当前动作作用于当前奖励后产生的下一个状态s+,将过滤后的样本存放在最终经验回放区中,并将数据分别传输到频谱分配模块和发射功率分配模块中,用以训练对应的target网络;
56.s300:频谱分配模块基于dqn算法输出一个频谱子带的分配动作,传输至最终动作策略模块中,发射功率分配模块基于ddpg算法输出一个功率分配动作传输至最终动作策略模块中,最终动作策略模块将来自两个模块的动作复合,输出最终的动作,作用于车联网环境模块,并转至步骤s100进入下一个循环。
57.在本实施例中,如图4所示,基于多智能体强化学习的车联网资源分配方法包括车联网环境模块、频谱分配模块、发射功率分配模块、最终动作策略模块、初始经验回放区模块、余弦相似性过滤模块以及最终经验回放区模块。
58.车联网环境模块部分由v2v链路、车联网用户、、行驶方向以及v2i链路组成。在该模块中,我们将每个车联网用户看作是单个智能体,其他车联网用户看作是环境,这使得每个智能体在行动时都将面临一个非平稳的环境,故而需优化优化采样环节。多个智能体之间用v2v链路进行相互的通信,每个智能体与之间用v2i链路链接。
59.在工作时,车联网环境模块首先获取的当前状态s、当前的动作a、当前的奖励r以
及当前动作作用于当前奖励后产生的下一个状态s+,并将上述获取数据传输到初始经验回放模块;
60.经验回放机制中会对初始经验回放模块中存放的数据进行优化,通过将当前存放在初始经验回放区的数据传输到余弦相似性过滤模块,并由余弦相似性过滤模块对数据样本进行余弦相似性过滤。数据样本经过余弦相似性过滤后会输出到最终经验回放区模块存放,最终经验回放区模块中的数据会输出给频谱分配模块和发射功率分配模块,将用于训练对应的target网络。在车联网环境中,为了解决多智能体rl中,每个智能体都必须面对非平稳的环境而带来的最终结果难以收敛。而对传统经验回放进行了优化,加入了余弦相似性过滤,对经验回放的样本进行有相应权重条件的过滤,就能够使整个系统更快的趋向于收敛。
61.最终,频谱分配模块与发功功率分配模块会根据最终经验回放区模块输入的数据,对target网络进行训练,并分别一个最终分配动作到最终动作策略模块中。由最终动作策略模块将来自频谱分配频谱子带的分配动作和发射功率分配模块的功率分配动作进行动作复合,输出最终的动作(即v2v链路的频谱分配动作和发射功率控制动作),将最终动作作用于环境,并重复步骤s210,开始下一个循环。其中,频谱分配模块基于dqn算法对target网络进行优化,发射功率分配模块基于ddpg算法对target网络进行优化。通过dqn算法分配频谱的同时又通过ddpg算法分配链路发射功率,有效规避传统算法带来的种种不利的影响,在接近现实车辆高速行驶中,车联网复合环境模拟得以将有限的资源更合理的分配到每条链路,实现在车辆高速行驶的过程中也能享受到更好的qos。
62.对于强化学习rl中的基本参量,作如下定义:
63.状态st:智能体从环境中获得的状态由v2v链路之间的干扰、v2v链路对v2i链路的干扰、v2i链路对v2v链路的干扰三个部分组成。
64.动作a
t
:rl的动作由两部分组成,分别是功率分配模块的输出a1和发射功率分配模块的输出a2,由这两部分复合成一个动作作用于环境,进而产生新的状态。频谱分配模块是基于dqn算法的优化,故而该模块的输出频谱子带选择动作a1为离散型动作。而发射功率分配模块是基于ddpg算法的优化,故而该模块的输出发射功率选择的输出a2是连续型动作,该动作是由一个策略决定的,即可以表达为a2=π(s
t
+n),其中n表示随机噪声。故而,在最终策略动作模块有at={a1,a2},at又为最终策略动作模块输出的复合动作。.
65.奖励r:在rl中,奖励的设置十分重要,关系到智能体将应该往何种方向优化。在本发明中,奖励设置如下:
[0066][0067]
其中表示在时隙t中,第m个子频带上的第n个v2i链路的信道容量;
[0068]
pk是个二进制数,如果pk=1,则第k个v2v链路使用第m个子频带,否则pk=0;
[0069]
表示在时隙t中,第m个子频带上的第k个v2v链路的容量;
[0070]
bk表示第m个子频带上的第k个v2v链路的有效负荷。
[0071]
同时,设置了超参数β,用于提高v2v链路的数据包传递率。
[0072]
在其中一个实施例中,频谱分配模块采用ε-greedy策略,如图5、图6所示,所述频谱分配模块训练target网络包括步骤:
[0073]
s210:在开始前车联网环境输出s到频谱分配模块,而频谱分配模块将会随机选择一个动作,然后将动作传出至车联网环境,车联网环境对相应动作产生新的环境条件s+,在第二次选择动作时会进行一个判断,以1-ε的概率选择对应q值最高的动作,或是以ε的概率选择一个随机的动作输出,随后会存放在初始经验回放区模块;
[0074]
s220:q网络从车联网环境模块中获取的车联网环境状态s,经过运算后得到一个动作,动作存放在初始经验回放区模块后,将会作用于车联网环境模块,产生一个新的状态提供给所述q网络获取,重复该步骤直至初始经验回放区模块放满预设的数据,频谱分配模块将开始更新q网络;
[0075]
其中,频谱分配模块包括第一当前状态获取、第一随机动作选择、第一q网络、第一targe q网络、策略计算。q网络从车联网环境模块中获取的车联网环境状态s,经过运算后得到一个动作,动作存放在初始经验回放区模块后,将会作用于车联网环境模块,从而车联网环境模块根据动作产生新的状态,这个新的状态将作为信道信息以供q网络获取,通过上述过程循环,直至初始经验回放区模块放满预设的数据后,频谱分配模块将开始对q网络更新,dqn中的q网路是主网络,它的参数将决定整个网络对预测q值的估计。
[0076]
具体的,如图7所示,更新q网络包括步骤:
[0077]
s221:最终经验回放区中通过采样获取到当前奖励r和下一状态s+,并输出给target网络;
[0078]
s222:target网络利用r和s+计算出下一q值y,并将y送入到q网络中,q网络通过y计算loss值,根据loss值开始更新q网络。其中,loss值为优化目标,整个dqn算法最终目的是使loss值最小化。
[0079]
s223:当q网络更新次数达到设定第一阈值,q网络会将所有的参数都复制给target网络,并用以更新target网络,更新之后将继续从车联网环境模块中得到相应状态,并转至步骤s210。
[0080]
在其中一个实施例中,如图8所示,发射功率分配模块由第二当前状态获取、第二随机动作选择、actor模块、target策略网络、策略网络、第一优化模块、critic模块、第二targetq网络、第二q网络、第二优化模块组成。
[0081]
发射功率分配模块采用uhlenbeck-ornstein随机过程,在选择动作时加入了随机噪声,通过采样得到相应的动作,随后会存放在初始经验回放区模块。但在rl的测试环节,将不会加入uhlenbeck-ornstein随机过程。
[0082]
具体的,发射功率分配模块包括actor模块和critic模块,环境采样得到的状态、奖励和下一个状态会输入到actor模块,actor模块将输入的状态转换为状态、行动、奖励和下一个状态,并存放在初始经验回放区模块,用于更新actor模块与critic模块的数据集。其中actor模块的最终目的是得到使得j函数最大化的策略,而critic模块的最终目的是得到使得loss最小的动作。
[0083]
进一步的,对于更新critic模块的数据集,首先需要更新第二q网络的参数,而参数的更新需要参考loss函数梯度。而和频谱分配模块一样,在这里loss函数定义为均方误差,其中用作标签值的yi由target策略网络和第二target q网络联合计算得出,有了loss
函数和标签值yi,利用back-propagation可得到第二q网络的当前的梯度。得到梯度之后通过adam optimizer方法即可更新第二q网络。如此往复,当第二q网络更新10次之后,将开始更新第二target q网络,区别与频谱分配模块,此处更新采用软更新方法,不是简单的将第二q网络的参数直接覆盖第二target q网络,而是取用加权模式。其中,第二q网络的参数权重为τ,当前target q网络的参数权重为1-τ,参数τ取值为0.001。
[0084]
进一步的,对于更新actor模块的数据集:首先用一个函数去衡量我们策略网络的优劣,这个函数一般命名为j(θ),其中θ为策略网络的参数,在本实施例中,函数表示为:j(θ)=∫sρ(s)q
θ
(s,θ(s))ds,其中ρ(s)是uhlenbeck-ornstein随机噪声后服从正态分布的状态s的分布函数,q
θ
(s,θ(s))是如果按照策略网络选择动作后,可以产生的q值。actor模块的最终目的是调整θ,最大化j(θ)函数。此处需要先求j(θ)函数的梯度。该梯度可用monte-carlo方法求得。在获得j(θ)的梯度后,优化模块采用adam optimizer更新θ。当策略网络更新10次之后,将开始更新target策略网络,更新方法是软更新。其中,策略网络的参数权重为τ,当前target策略网络的参数权重为1-τ,参数τ取值为0.001。
[0085]
实施例2
[0086]
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,使所述处理器实现本发明实施例1提供的基于强化学习的车联网资源分配方法。
[0087]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读存储介质上,计算机可读存储介质可以包括计算机可读存储介质(或非暂时性介质)和通信介质(或暂时性介质)。
[0088]
如本领域普通技术人员公知的,术语计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机可读存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0089]
示例性的,所述计算机可读存储介质可以是前述实施例所述的网管设备的内部存储单元,例如所述网管设备的硬盘或内存。所述计算机可读存储介质也可以是所述网管设备的外部存储设备,例如所述网管设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。
[0090]
实施例3
[0091]
本发明实施例提供一种设备,包括处理器与存储器,所述存储器用于存储计算机
程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现本发明实施例1提供的基于协变量的kubernetes资源调度优化方法。
[0092]
应当理解的是,处理器可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0093]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

技术特征:


1.基于强化学习的车联网资源分配方法,其特征在于,包括步骤:s100:车联网环境模块将当前的状态s、当前的动作a、当前的奖励r以及当前动作作用于当前奖励后产生的下一个状态s+,传输到初始经验回放模块;s200:经验回放设置优化环节,将放在初始经验回放区的初始的数据通过余弦相似性模块进行样本过滤,过滤的样本包括当前的状态s、当前的动作a、当前的奖励r以及当前动作作用于当前奖励后产生的下一个状态s+,将过滤后的样本存放在最终经验回放区中,并将数据分别传输到频谱分配模块和发射功率分配模块中,用以训练对应的target网络;s300:频谱分配模块基于dqn算法输出一个频谱子带的分配动作,传输至最终动作策略模块中,发射功率分配模块基于ddpg算法输出一个功率分配动作传输至最终动作策略模块中,最终动作策略模块将来自两个模块的动作复合,输出最终的动作,作用于车联网环境模块,并转至步骤s100。2.根据权利要求1所述的基于强化学习的车联网资源分配方法,其特征在于,所述奖励r表示为:其中:表示在时隙t中,第m个子频带上的第n个v2i链路的信道容量;p
k
是个二进制数,如果p
k
=1,则第k个v2v链路使用第m个子频带,否则p
k
=0;表示在时隙t中,第m个子频带上的第k个v2v链路的容量;b
k
表示第m个子频带上的第k个v2v链路的有效负荷;超参数设为β。3.根据权利要求1所述的基于强化学习的车联网资源分配方法,其特征在于,所述频谱分配模块采用ε-greedy策略,所述频谱分配模块训练target网络包括步骤:s210:在开始前车联网环境输出s到频谱分配模块,而频谱分配模块将会随机选择一个动作,然后将动作传出至车联网环境,车联网环境对相应动作产生新的环境条件s+,在第二次选择动作时会进行一个判断,以1-ε的概率选择对应q值最高的动作,或是以ε的概率选择一个随机的动作输出,随后会存放在初始经验回放区模块;s220:q网络从车联网环境模块中获取的车联网环境状态s,经过运算后得到一个动作,动作存放在初始经验回放区模块后,将会作用于车联网环境模块,产生一个新的状态提供给所述q网络获取,重复该步骤直至初始经验回放区模块放满预设的数据,频谱分配模块将开始更新q网络。4.根据权利要求3所述的基于强化学习的车联网资源分配方法,其特征在于,所述更新q网络包括步骤:s221:最终经验回放区中通过采样获取到当前奖励r和下一状态s+,并输出给target网络;s222:target网络利用r和s+计算出下一q值y,并将y送入到q网络中,q网络通过y计算loss值,根据loss值开始更新q网络;s223:当q网络更新次数达到设定第一阈值,q网络会将所有的参数都复制给target网络,并用以更新target网络,更新之后将继续从环境中得到相应状态,并转至步骤s210。
5.根据权利要求1所述的基于强化学习的车联网资源分配方法,其特征在于,所述发射功率分配模块采用uhlenbeck-ornstein随机过程,在选择动作时加入了随机噪声,通过采样得到相应的动作,随后将采样得到的动作存放在初始经验回放区模块。6.根据权利要求5所述的基于强化学习的车联网资源分配方法,其特征在于,所述发射功率分配模块包括actor模块和critic模块,环境采样得到的状态、奖励和下一个状态会输入到actor模块,actor模块将输入的状态转换为状态、行动、奖励和下一个状态,并存放在初始经验回放区模块,用于更新actor模块与critic模块的数据集。7.根据权利要求6所述的基于强化学习的车联网资源分配方法,其特征在于,所述更新critic模块包括步骤:根据loss函数和标签值y
i
,利用back-propagation得到q网络的当前梯度,其中loss函数定义为均方误差,标签值的y
i
由target策略网络和target q网络联合计算得出;根据梯度利用adam optimizer法开始更新q网络;当q网络更新次数达到第二阈值时,采用加权模式开始更新target q网络,其中q网络的参数权重为τ,当前target q网络的参数权重为1-τ。8.根据权利要求6所述的基于强化学习的车联网资源分配方法,其特征在于,所述更新actor模块包括步骤:采用函数j(θ)衡量策略网络的优劣,表示如下:j(θ)=∫
s
ρ(s)q
θ
(s,θ(s))ds,其中θ为策略网络的参数、ρ(s)是uhlenbeck-ornstein随机噪声后服从正态分布的状态s的分布函数,q
θ
(s,θ(s))为按照策略网络选择动作后,可以产生的q值;用monte-carlo方法求得j(θ)函数的梯度,并采用adam optimizer法更新策略网络参数θ;当策略网络更新次数达到第三阈值后,采用加权模式开始更新target策略网络,其中策略网络的参数权重为τ,当前target策略网络的参数权重为1-τ。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如权利要求1至8任一所述的基于强化学习的车联网资源分配方法。10.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一所述的基于强化学习的车联网资源分配方法。

技术总结


本申请公开一种基于强化学习的车联网资源分配方法,包括:车联网环境模块收集当前环境数据传输存放到初始经验回放模块;余弦相似性模块对初始经验回放模块存放数据过滤发送到频谱分配模块和发射功率分配模块用以训练Target网络;基于DQN算法的功率分配模块和基于DDPG算法的发射功率分配模块输出分配动作,经最终策略模块将动作复合,作用于车联网环境模块。本发明通过将环境变化的变量作为参量计算,提高车联网资源分配的可靠性;通过将频谱与功率条件复合分析,使车联网资源分配结果偏差降低;通过对经验回放加入了余弦相似性过滤,使整个系统更快的趋向于收敛。使整个系统更快的趋向于收敛。使整个系统更快的趋向于收敛。


技术研发人员:

崔海霞 陆江南 刘鹏 张楠 刘圣锋

受保护的技术使用者:

华南师范大学

技术研发日:

2022.09.01

技术公布日:

2023/2/2

本文发布于:2024-09-21 17:51:46,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/55114.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模块   分配   动作   网络
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议