一种基于混合动作空间强化学习算法的计算卸载方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202111424091.8
(22)申请日 2021.11.26
(71)申请人 华东师范大学
地址 200241 上海市闵行区东川路500号
(72)发明人 杨钊 王廷 蔡海滨 
(74)专利代理机构 上海蓝迪专利商标事务所
(普通合伙) 31215
代理人 徐筱梅 张翔
(51)Int.Cl.
H04L  67/10(2022.01)
H04L  67/101(2022.01)
H04L  67/1008(2022.01)
G06F  9/50(2006.01)
G06N  20/00(2019.01)
(54)发明名称一种基于混合动作空间强化学习算法的计算卸载方法(57)摘要本发明公开了一种基于混合动作空间强化学习算法的计算卸载方法,该方法包括步骤:a)在多设备服务器的应用场景下建立任务协作卸载与资源分配模型;b )获取请求任务的状态;c )获得学习模型和d )求解卸载决策;通过将卸载过程中的决策划分为具有离散行为选择和连续行为决策的混合动作空间,并且通过为离散行为和连续行为分别制定不同的决策策略,取得更有效的优化效果。本发明基于处理具有混合动作空间的深度强化学习算法,将移动设备的任务完成时延和能量消耗作为优化目标,与其他算法相比本发明提出的方法相比可有效降低移动用户时延和能耗,
提升用户体验质量。权利要求书3页  说明书9页  附图2页CN 114205353 A 2022.03.18
C N  114205353
A
1.一种基于混合动作空间强化学习算法的计算卸载方法,其特征在于,该方法包括以下具体步骤:
S1、在多设备多服务器的应用场景下建立任务协作卸载与资源分配模型,包括边缘卸载环境模型、计算任务模型、计算任务决策模型,计算任务传输网络模型、本地处理时延和能耗模型、卸载处理时延和能耗模型及具有混合动作空间的马尔可夫决策过程卸载模型;
S2、获取请求任务的状态,具体包括:
和服务器处理能力
S201:获取边缘服务器信道带宽W
m
S202:获取各个移动设备的任务状况和设备的处理能力
S3、获得学习模型,具体包括:
S301:获取需要执行的任务序列;
、连续行为网络参数θ以及评估网S302:采样k个学习任务,初始化离散行为网络参数θ
c
络参数θ
s
S303:采样获得状态行为集合,采取对应的动作,评估奖励;
S304:判断奖励是否收敛或者是否达到迭代次数上限,当奖励收敛或已达到迭代次数上限时,即可获取参数集合,当奖励不收敛或未达到迭代次数上限时,同步评估网络和行为网络的参数返回步骤S302;
S305:更新系统网络参数,获取学习模型;
S4、求解卸载决策,具体包括:
S401:通过离散行为网络获取离散行为通过连续行为网络获取连续行为
其中代表边缘服务器的选择,分别代表卸载率和边缘服务器分配给设备的计算能力;
S402:采取对应的离散行为和连续行为,评估奖励。
2.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法,其特征在于,步骤S1中所述计算任务模型,其建立具体包括:每个时隙移动设备会产生一个计算
密集型任务用任务队列来处理到达其设备上的任务;将移动设备n的任务队列表示为
其中表示在时隙t时移动设备n的任务队列中所需处理的数据总量,则表示移动设备n在时隙t内实际处理的数据大小,表示处理one‑bit数据所需要消耗的计算资源即用CPU计算周期数来表示,被用来表示移动设备的优先级,代表设备n在时隙t内对于完成大小的数据的最大延迟容忍度。
3.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法,其特征在于,步骤S1中所述计算任务决策模型,其建立具体包括:允许设备n将任务的一部分卸载到边缘服务器上进行处理;首先进行卸载决策的选择,用来定义移动设备n是否将任务
卸载到边缘服务器上执行,若则表示任务完全在本地执行,而则表示将任务卸载到边缘服务器m上执行;接下来进行卸载率的选择;用表示卸载率,即移动设备
n将会将比率大小的数据卸载到边缘服务器m上,剩余的部分的数据将会留在本
地设备上执行;特殊的,当时代表移动设备n的任务将会完全在本地执行,当代
表移动设备n的任务将会完全卸载到边缘服务器m上执行;最后边缘服务器m需要在时隙t内为要卸载任务到该服务器的所有移动设备分配计算能力;模型中使用来表示在时隙t内边缘服务器m为移动设备n分配的计算能力大小。
4.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法,其特征在于,步骤S1中所述计算任务传输网络模型,其建立具体包括:移动设备n需要通过无线网络数据卸载到边缘服务器m上;由于存在在同一个时隙t内多个移动设备决定将任务卸载到同一个服务器上执行的情况,要将服务器的带宽合理分给所有要将任务卸载到该服务器上的移动设备;依据香农公式,采用如下的公式计算不同设备在时隙t内卸载任务到边缘服务器m的上传速率:
其中Z n 是移动设备用于上传数据的发射功率,h n 是移动设备在无线信道中的信道增益,N 0是复杂白高斯信道噪声的方差,P n 设备的优先级,W m 代表边缘服务器m的带宽。
5.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法,其特
征在于,步骤S1中所述本地处理时延和能耗模型,其建立具体包括:当移动设备n选择将
比率大小的数据卸载到边缘服务器m上时,会有
大小的数据留在本地执行,相应的需
要的CPU计算周期数为而本地设备处理数据的计算能力大小为所以本地处理数据的时延为:相应的处理该部分的数据所消耗的能量为:
其中,V n 为处理数据每个CPU计算周期需要消耗的能量。
6.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法,其特征在于,步骤S1中所述卸载处理时延和能耗模型,其建立具体包括:移动设备n选择将比率大小的数据通过网络传输到边缘服务器m上时,会有
大小的数据卸载到边缘服务器m 上,并且需要大小的CPU时钟周期数来处理对应的数据,最后边缘服务器m会将完成的结果返回给设备n;在MEC系统中,将反馈传输的时间和能量消耗忽略不计;在计算任务传输网络模型中得到设备n上传任务到边缘服务器m的上传速率,那么该部分数据的传输时延为:相应的传输该部分数据到边缘服务器m 上的能量消耗为:
其中e为设备n单位时间传输数据所消耗的能量;则该部分的数据在边缘服务器m上的处理时延为:
那么将数据卸载到边缘服务器m上的全部时
延为:其中为数据该部分数据的传输时延,为该部分的数据在边缘服务器m上的处理时延。
7.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法,其特征在于,步骤S1中所述具有混合动作空间的马尔可夫决策过程为:T n =(S,A,R,π),式中元
素从左到右依次表示问题的状态空间S、动作空间状态转移矩阵A、奖励函数R和策略π;为求解所述马尔可夫决策过程,采用一种基于混合动作空间强化学习算法,该算法是基于强化学习中的Actor‑critic架构,其架构中有两个平行的Actor网络及一个Critic网络;首先通过其中一个Actor网络选择要卸载的边缘服务器m,然后由另一个Actor网络决策卸载率和边缘服务器m分配给移动设备n的计算能力;利用Critic网络通过计算优势估计值来对所述两个Actor网络的参数进行更新,从而能够不断的最大化目标函数最终趋于稳定。
一种基于混合动作空间强化学习算法的计算卸载方法
技术领域
[0001]本发明涉及强化学习方法法应用于边缘计算领域,特别是涉及一种基于混合动作空间强化学习算法的计算卸载方法。
背景技术
[0002]随着物联网设备,如智能手机、传感器和可穿戴设备等的快速增长和应用,具有计算密集型任务
的高级应用正在出现。然而,物联网设备通常具有有限的计算能力和内存限制。为了解决计算密集型应用和资源有限的物联网设备之间的冲突,一些计算任务必须被卸载到具有足够计算能力的服务器上。因此,云计算被提出来为物联网设备计算和存储提供强大的能力。然而,云服务器在物理上或逻辑上离设备很远,可能会产生很长的延迟,不能满足超低延迟的要求。
[0003]这一问题可以通过在网络边缘提供计算服务的移动边缘计算(MEC)得到缓解。MEC 将原本位于云数据中心的服务和功能“下沉”到移动网络的边缘,通过在移动网络边缘部署计算、存储、网络和通信等资源,不仅减少了网络操作,而且降低了服务交付时延,提升用户服务体验。同时,大幅增长的网络数据,对回传链路和移动核心网造成了巨大的链路负载,MEC在网络边缘部署服务器后,可以在边缘对用户进行响应,降低了对回传网和核心网的带宽要求。为了实现对MEC系统计算资源的有效利用,满足设备的计算需求,需要采用一个智能计算卸载策略。因此,计算卸载策略吸引了众多学者进行研究,已有丰硕的研究成果,有许多不同的技术方法。
[0004]在现有的关于计算卸载策略研究的方法中,一类是采用基于优化或博弈的算法用来解决计算卸载问题的方法。该类方法大多采用基于L y a p u n o v 优化方法或基于Stackelberg博弈论的方法将计算卸载问题建模为NP ‑hard问题,进而能够在卸载过程中动态的调整卸载策略,从而能够降低MEC系统的时延和能量消耗。但是该类采用基于优化或博弈的算法的方法只能得到一个近似的最佳解,且需要环境统计的先验知识,而这在动态MEC 系统中可能无法实际获得。为了解决这些问题,研究人员已经转向将
计算卸载问题建模为马尔可夫决策过程(MDP),并用强化学习(RL)或深度强化学习(DRL)方法来解决。
[0005]DRL最近取得了很大进展,并提出了各种算法。它已被应用于各种应用,如机器人学、计算机视觉和无人机导航。随着DRL的巨大成功,也有一些工作将RL或D  RL用于计算卸载问题中。该类方法采用不同的深度学习算法并根据每个设备的本地情况进行观察以及自适应分配从而能够为不同的用户采取分散的计算卸载策略,最终在时延和能量消耗两方面取得比传统方法更显著的优化效果。但是该类方法是在离散行动空间或连续行动空间中建模的,而现实中卸载问题的行动空间往往是连续‑离散混合的,每个设备需要共同决定连续和离散的行动来完成卸载过程,因此这些方法会限制对卸载决策的优化,且适应性较差。发明内容
[0006]有鉴于此,本发明的目的在于提供一种基于混合动作空间强化学习算法的计算卸
说 明 书1/9页CN 114205353 A

本文发布于:2024-09-21 10:43:53,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/422699.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:卸载   计算   设备   服务器
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议