首页 > 专利学习

一种基于深度强化学习的云边协同计算迁移方法[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 202010702969.9

(22)申请日 2020.07.21

(71)申请人南京邮电大学

地址 210023 江苏省南京市栖霞区文苑路9

号

(72)发明人陈思光　陈佳民　尤子慧　

(74)专利代理机构南京苏高专利商标事务所

(普通合伙) 32204

代理人柏尚春

(51)Int.Cl.

H04L 29/08(2006.01)

(54)发明名称

一种基于深度强化学习的云边协同计算迁

移方法

(57)摘要

本发明公开了一种基于深度强化学习的云

边协同计算迁移方法，包括以下步骤：(1)构建由

用户层、边缘云层和云层组成的移动边缘网络计

算迁移模型；(2)边缘云层内的边缘云节点接收

到用户层迁移的计算任务，根据任务分配宽带和

计算资源；(3)以计算任务的时延和能耗最小作

为优化目标，构建目标函数和约束；(4)构建深度

神经网络模型，采用异步边缘云协同深度强化学

习的方法对目标函数进行优化，得到最优的迁移

决策，并返回用户层的终端执行该决策。本发明

能够解决大数据场景下求解复杂组合优化的问

题，解决了传统梯度优化方法存在收敛速度慢的

缺点，在处理大规模数据时方法耗时更短，可以

适应大数据网络数据处理时效性需求。权利要求书4页说明书8页附图4页CN 112134916 A 2020.12.25

C N 112134916

1.一种基于深度强化学习的云边协同计算迁移方法，其特征在于，包括以下步骤：

(1)构建由用户层、边缘云层和云层组成的移动边缘网络计算迁移模型；

(2)边缘云层内的边缘云节点接收到用户层迁移的计算任务，根据任务分配宽带和计算资源；

(3)以计算任务的时延和能耗的权重和最小作为优化目标，构建目标函数和约束；

(4)构建深度神经网络模型，采用异步云边协同深度强化学习的方法对目标函数进行优化，得到最优的迁移决策，并返回用户层的终端执行该决策。

2.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法，其特征在于，所述步骤(4)的优化过程具体包括以下步骤：

(41)定义状态空间为：

S t＝(C ij(t))

其中，C ij(t)表示时隙t时用户i的任务迁移至边缘节点j计算的总成本；S t为环境状态；

定义动作空间为：

A t＝(z ij(t),λij(t),βij(t))

其中，z ij(t)表示t时刻用户i选择边缘节点j进行迁移；λij(t)表示t时刻边缘节点j分配给用户i的带宽占比；βij(t)表示t时刻边缘节点j分配给用户i的CPU占比；

定义奖励函数为：

其中，v为具体环境决定的奖励值；r t ij表示用户i选择边缘节点j进行迁移在时刻t时的奖励值；表示用户i选择边缘节点j进行迁移在时刻t-1时的奖励值；C ij(t-1)表示时隙t-1时用户i的任务迁移至边缘节点j计算的总成本；

(42)为了将边缘节点智能体中的各种观测结果融入深度神经网络中，定义策略函数为：

π(s t,a t)≈π(a t|s t；θt)

其中，a t为t时刻的迁移动作；θt为使用策略迭代更新网络中的权重参数；

采用梯度上升方法计算关于奖励的期望则策略梯度公式为：

其中，R t为每个动作的奖励值；π(a t|s t；θt)表示在状态s t下选择动作a t的概率；

为对的无偏估计；

(43)通过边缘节点的智能体观测到任务迁移到边缘节点的映射，观测包括边缘节点的计算能力，任务的数据大小，以及任务的最大容许延迟，采用多步Q-learning方法中的目标动作Q值定义方法，因此定义动作值Q函数为：

Q(s t,a t)≈Q(s t,a t；w t)

其中，Q(s t,a t)为单个动作所对应的价值；w为本发明的权重参数；

因此基于价值函数的深度神经网络，损失函数定义为：

其中为上一次迭代的权重值；

多步Q-learning方法中的多步是指包括计算后续n步的状态，因此本发明定义Target Q为：

其中γ为衰减因子；r t,r t+n-1分别表示进行迁移在时刻t,+n-1时的奖励值；为执行动作a t时的最大动作值；

(44)采用折扣奖励用于通知边缘节点迁移决策的优劣；然后进行网络更新，以确定该迁移决策的优劣程度；

定义云-边动作优势函数为：

A(s t,a t)＝Q(s t,a t)-V(s t)

其中，状态值函数V(s t)是在时间步t的状态下，所有动作值函数关于动作概率的期望；

采用折扣奖励R作为动作值Q的估计值，最终定义云-边优势函数为：

A(s t,a t)＝R(s t,a t)-V(s t)

其中，R(s t,a t)为状态s t时执行迁移动作a t的奖励值。

3.根据权利要求2所述的基于深度强化学习的云边协同计算迁移方法，其特征在于，对所述步骤(42)中期望公式增加标准化操作，用于降低梯度的方差，则该式可更新为：

其中，b t(s t)为在状态s t时刻的基线函数。

4.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法，其特征在于，所述步骤(1)的用户层由N个用户终端组成，这些设备被部署在指定的区域内，用于感知是否有计算任务产生；且当终端中需要处理的任务数据超出本地的计算能力，就会向边缘云发送计算请求。

5.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法，其特征在于，所述步骤(1)的边缘云层由M个边缘节点组成；每个边缘节点的功能包括：

(11)生成迁移决策：当边缘节点接收到用户层的计算请求时，会结合边缘云中所有节点的带宽和计算资源的分配情况，生成最优的迁移决策，然后将迁移决策发送给对应用户层的用户终端；

(12)计算迁移和数据处理：当用户层用户终端接收到对应的迁移决策，用户终端从本地将需要计算的数据发送给对应的边缘节点，边缘节点通过计算再将对应的结果发送回对应的用户终端。

6.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法，其特征在于，所述步骤(1)的云层为服务器，云层收集每个时间段内的所有历史任务信息，模拟用户层与边缘云层的交互过程，生成更优的迁移决策，并将优化后的神经网络参数梯度返回给对应的边缘节点。

7.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法，其特征在于，所述步骤(2)具体包括以下步骤：

(21)当多个用户有任务需要计算时，首先确定任务的最大容许延迟，以及本地计算的时间；若本地计算的时间j∈{0,1,2,…,M}大于最大容许延迟，将发送任务迁移请求，把需要计算的任务数据大小发送给边缘节点，边缘节点在边缘云中同步该用户的信息，生成如下的任务表格：

其中，x ij表示计算任务在本地执行还是被迁移；λij表示边缘节点j分配给用户i的带宽占比，βij表示边缘节点j分配给用户i的计算资源占比；T i tol表示用户终端i的最大容许延迟；其中i∈{1,2,…,N}D i；j表示第j个边缘节点，当j＝0时，特指用户终端本身；

(22)边缘节点在边缘云下同步更新和维护上述任务表格，根据全部任务生成的表格可以得到总任务集F：

F＝{F ij|i∈{1,2,…,N},j∈{0,1,2,…,M}}

(23)总任务集F形成在边缘云中的所有边缘节点中，基于总任务集F得到所有任务的迁移决策，从而计算出各个任务相应的处理成本。

8.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法，其特征在于，所述步骤(22)中的同步在边缘节点每次做出任务迁移决策后，更新表格信息，并广播给同一边缘云下的所有边缘节点。

9.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法，其特征在于，所述步骤(3)中的目标函数为：

其中，目标函数即为最小化全部任务完成时间与用户端能耗的权重和，用总成本C表示；为本地计算成本；为迁移计算成本。

10.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法，其特征在于，所述步骤(3)中的约束条件包括：

(31)无论是选择本地计算所产生的延迟还是选择迁移计算产生的延迟都不能大于用户对任务执行所能容忍的最大延迟，公式如下：

其中，为本地计算时间；为迁移计算时间；

(32)节点j分配给各个任务的带宽占比和必须小于或等于1，即迁移到边缘节点的所有用户任务占用的带宽和要小于或等于边缘节点的最大带宽，本地用户的带宽分配也是如此，公式如下：

(33)所有迁移到边缘节点或在本地执行的任务CPU占比之和小于或等于1，公式如下：

(34)变量z ij的取值约束：当z ij＝0表示任务i并未选择节点j进行计算，当z ij＝1表示任务i选择j节点执行计算，公式如下：

z ij∈{0,1}。

本文发布于:2024-09-21 08:38:25，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/1/439442.html

上一篇：电池温度估算方法、装置、电子设备及存储介质发明专利

下一篇：一种镍基高温合金中析出相体积分数的测量方法[发明专利]

标签：边缘迁移节点计算任务用户

留言与评论（共有 0 条评论）