一种基于轻量级学习的实时服务迁移方法

1.本发明涉及动态边缘网络中实时服务的协作迁移方法，尤其涉及一种基于模仿学习的服务迁移算法和基于元学习的模型迁移加速算法。

背景技术：

2.增强型移动宽带已推动5g成为商业现实。随着向6g的过渡，智能设备的快速扩展和实时应用的爆炸式增长，催生了全息通信、数字孪生和增强现实等最先进的服务需求，产生了大量需要及时处理的数据，2028年全球移动流量将达到1zb/月，相当于全球50亿用户每月花费200gb。迫切的计算能力要求是资源有限的边缘网络面临的重大挑战。当前设备功能不完善，导致实体业务的时效性要求受限与边缘资源受限。
3.更新或维护硬件的高昂费用限制了新型服务商业化的发展。为了保证实时服务的性能，资源(包含计算、通信和缓存)根据服务会话声明的要求进行预留。然而，服务执行需要多个边缘设备之间的异构资源，高度依赖于全球网络状态。由于信息被隔离在独立的设备上，边缘设备由于通信能力有限而无法观察全局状态。然而，与中央节点的频繁交互，例如或其他具有强大传感器的基础设施，加重了网络负担并威胁到私人信息。因此，一个基本问题是如何设计轻量级和分布式代理策略，以使设备能够实时做出最优决策的自主服务合作，尤其是对于动态边缘网络。研究该问题面临的挑战如下：
4.1.资源竞争在能量有限的移动设备中更加激烈。单一服务提供者不仅增加了租金负担，而且降低了资源利用效率。因此，如何调度服务并组合管理异构资源以优化服务请求者的体验质量值得研究。
5.2.用户在现实世界中是自私和理性的，在出租资源方面有不同的意愿。因此，有必要设计一种有效的定价机制来激励设备并通过在稳定但有竞争力的基础设施资源和分散但可用的设备资源之间做出令人满意的权衡来向请求者提供服务。
6.3.学习算法所产生的训练成本、通信负载和收敛速度导致时敏服务质量急剧下降。为分布式决策设计一个支持在线的轻量级学习策略是相当具有挑战性的。

技术实现要素：

7.本发明旨在设计一种高效的异构资源集成方案提供实时服务的优化服务性能和服务成本，本发明建立了一个支持实时服务协作迁移的动态边缘系统，。为了最小化服务执行的时延和支付，本发明设计了一种轻量级连续模仿的服务协作迁移算法，提出了一种基于匹配的离线专家策略，并用于为智能体提供专家策略，基于获得的专家数据集，利用模仿学习通过最小化状态-动作对分布的误差来设计分布式智能体策略以拟合专家策略。该方法摆脱了传统算法的高学习负载和降低了学习成本，并利用元更新来加速模型训练以实现轻量级连续模仿。
8.主要发明内容总结如下：
9.1.本发明构建了基于资源组合优化的智能服务合作迁移框架，并提出了能够反映
服务合作意愿的定价机制。该问题被表述为一个双目标优化问题，以最小化执行时延和支付，并将双目标问题分解为选择执行设备并通过分析最优执行时延来确定最优迁移率。
10.2.本发明提出了一种基于模仿学习的在线服务合作迁移策略(imitation learning-based online service cooperative migration policy，下文简称los)。并提出了一种离线专家策略得到最优匹配结果来为智能体生成专家轨迹数据集。
11.3.本发明提出了一个轻量级的在线智能体策略，通过模仿获得的专家轨迹数据集在线决策。为了克服专家数据集的陈旧性，本发明应用元学习来加速迁移模型以更新代理策略，以减少模型持续训练的工作量。
12.鉴于此，本发明采用的技术方案是：一种基于轻量级学习的实时服务迁移方法，包括以下步骤：
13.1)构建动态边缘网络模型；根据基础设施的通信能力划分区域，一个区域包含服务提供者和服务请求者，设定服务迁移在离散的时隙中执行，用户终端在用作服务请求者的同时也可以用作服务提供者，服务请求者生成的服务设定为可以部分迁移到其他设备上执行，服务的迁移执行过程分为输入、执行和输出三个步，服务请求者将迁移的部分分解为本地执行和迁移执行两个部分并行执行，以分散工作负载来提高工作效率降低成本。
14.2)分解服务迁移问题；将服务时延和迁移支付费用分别作为服务协作迁移性能和成本的指标，构建双目标优化问题。
15.3)基础设施基于观测到的全局状态做出最优匹配策略。
16.4)将专家数据集传给智能体以供智能体基于模仿学习训练智能体策略。
17.5)智能体基于专家数据集训练智能体策略，并基于元学习策略，加速更新模型过程，从而摆脱传统神经网络的学习成本降低传统学习负载，设定d个时隙为一个更新周期，每个更新周期将更新专家轨迹数据集并将其提供给分布式智能体以学习，每个设备都需要根据可观察到的信息独立学习策略并独立更新策略，以确保策略的准确性。
18.本发明的优点及有益效果如下：
19.1.本发明构建了基于资源组合优化的智能服务合作迁移框架，通过组合优化异构资源达到了资源的充分利用。而后提出了能够反映服务合作意愿的定价机制，通过价格能够反映出服务提供者的状态。该问题被表述为一个双目标优化问题，以最小化执行时延和支付，从而同时优化执行性能和成本，并将双目标问题分解为选择执行设备并通过分析最优执行时延来确定最优迁移率。
20.2.本发明提出了一种基于模仿学习的在线服务合作迁移策略。并提出了一种离线专家策略得到最优匹配结果来为智能体生成专家轨迹数据集，该策略能够通过匹配的方式得到最优的迁移结果以供智能体训练本地模型。
21.3.本发明提出了一个轻量级的在线智能体策略，通过模仿获得的专家轨迹数据集在线决策。为了克服专家数据集的陈旧性，本发明应用元学习来加速迁移模型以更新代理策略，以减少模型持续训练的工作量。能够通过保留部分先验知识并记录迁移过程来以较低负载更新智能体策略，使智能体以很低的工作负载更新训练模型，加速更新过程，使智能体在实际执行过程中更高效。
附图说明
22.图1为动态网络中服务迁移的说明性系统模型图；
23.图2为服务迁移说明图；
24.图3为耗能百分比、可用cpu频率和租金的变化示意图；
25.图4为不同更新轮次下本发明提出的算法和其他代表性算法的准确率性能图；
26.图5为不同更新轮次下本发明提出的算法和其他代表性算法的执行时间性能图；
27.图6为低工作负载下本发明提出的算法和其他代表性算法的迁移率分布图；
28.图7为高工作负载下本发明提出的算法和其他代表性算法的迁移率分布图；
29.图8为低工作负载下本发明提出的算法和其他代表性算法的可达服务质量分布图；
30.图9为高工作负载下本发明提出的算法和其他代表性算法的可达服务质量分布图；
31.图10为低工作负载下服务数据大小对本发明提出的算法和其他代表性算法在平均时延上的影响示意图；
32.图11为高工作负载下服务数据大小对本发明提出的算法和其他代表性算法在平均时延上的影响示意图；
33.图12为低工作负载下服务数据大小对本发明提出的算法和其他代表性算法在平均支付费用上的影响示意图；
34.图13为高工作负载下服务数据大小对本发明提出的算法和其他代表性算法在平均支付费用上的影响示意图；
35.图14为低工作负载下服务数据大小对本发明提出的算法和其他代表性算法在平均耗能占比上的影响示意图；
36.图15为高工作负载下服务数据大小对本发明提出的算法和其他代表性算法在平均耗能占比上的影响示意图；
37.图16为低工作负载下服务数据大小对本发明提出的算法和其他代表性算法在平均生存时间增益上的影响示意图；
38.图17为高工作负载下服务数据大小对本发明提出的算法和其他代表性算法在平均生存时间增益上的影响示意图；
39.图18为低工作负载下可通信距离对本发明提出的算法和其他代表性算法在平均时延上的影响示意图；
40.图19为高工作负载下可通信距离对本发明提出的算法和其他代表性算法在平均时延上的影响示意图；
41.图20为低工作负载下可通信距离对本发明提出的算法和其他代表性算法在平均支付费用上的影响示意图；
42.图21为高工作负载下可通信距离对本发明提出的算法和其他代表性算法在平均支付费用上的影响示意图；
43.图22为低工作负载下可通信距离对本发明提出的算法和其他代表性算法在平均耗能占比上的影响示意图；
44.图23为高工作负载下可通信距离对本发明提出的算法和其他代表性算法在平均
耗能占比上的影响示意图；
45.图24为低工作负载下可通信距离对本发明提出的算法和其他代表性算法在平均生存时间增益上的影响示意图；
46.图25为高工作负载下可通信距离对本发明提出的算法和其他代表性算法在平均生存时间增益上的影响示意图；
47.图26为低工作负载下服务类别数量对本发明提出的算法和其他代表性算法在平均时延上的影响示意图；
48.图27为高工作负载下服务类别数量对本发明提出的算法和其他代表性算法在平均时延上的影响示意图；
49.图28为低工作负载下服务类别数量对本发明提出的算法和其他代表性算法在平均支付费用上的影响示意图；
50.图29为高工作负载下服务类别数量对本发明提出的算法和其他代表性算法在平均支付费用上的影响示意图；
51.图30为低工作负载下服务类别数量对本发明提出的算法和其他代表性算法在平均耗能占比上的影响示意图；
52.图31为高工作负载下服务类别数量对本发明提出的算法和其他代表性算法在平均耗能占比上的影响示意图；
53.图32为低工作负载下服务类别数量对本发明提出的算法和其他代表性算法在平均生存时间增益上的影响示意图；
54.图33为高工作负载下服务类别数量对本发明提出的算法和其他代表性算法在平均生存时间增益上的影响示意图。
具体实施方式
55.为了更加清楚详实地展现本发明的优点，下面将结合图片进一步描述本发明的实施方式。
56.本发明提供了一种高效的服务协作迁移框架，旨在设计一种高效的异构资源集成方案提供实时服务的优化服务性能和服务成本，通过分析服务协作迁移的最优迁移率，本发明提出了一种基于模仿学习的轻量级学习方案，包括一个基于全局状态的离线专家策略和一个基于部分可观测状态的在线智能体策略。
57.步骤1)：
58.图1为动态网络中服务迁移的说明性系统模型图，如图所示，动态边缘网络可以根据基础设施的通信能力划分区域，一个区域包含服务提供者和服务请求者，为了能够捕捉动态状态，设定服务迁移在离散的时隙中执行，用户终端(包括车辆或智能设备)在用作服务请求者的同时也可以用作服务提供者，服务请求者生成的服务设定为可以部分迁移到其他设备上执行。
59.而服务的详细迁移执行过程可以分为输入、执行和输出三个步骤，如图2服务迁移说明图所示，服务的输入包含两个部分，即服务数据和服务所需数据包。服务请求者将迁移的部分分解为本地执行和迁移执行两个部分并行执行，以分散工作负载来提高工作效率降低成本。
60.在时隙t中，随机到达数量为n
t
的基础设施覆盖的设备可以表示为的基础设施覆盖的设备可以表示为si(t)为di(t)生成的服务请求，为了分别不同的服务，表示服务类别。k表示服务类别总数。
61.步骤1.1)：
62.服务执行模型的详细内容如下：
63.所研究的场景包含两种通信模式，即设备对设备通信和设备对基础设施的通信，两个设备间的可达通信速率可以由香农公式计算如下：
[0064][0065]
其中，b
ij
表示设备i和设备j之间的通信带宽，γ
ij
(t)表示时隙t下设备i和设备j之间的信干噪比。一旦设备i和设备j之间的通信条件满足限制，通信链接即可建立。
[0066]
为了保证通信质量，本发明考虑用户终端只能同时与一台用户设备进行通信，即设备对设备间通信无干扰，其中表示设备di(t)的通信发射功率，表示设备di(t)和设备dj(t)之间的信道增益，而σ2则表示加性高斯白噪声。相应地，如果设备di(t)和基础设施r(t)之间满足可通信条件，则可以基于非正交多址构建通信链路，信干噪比γ
ir
(t)可由下式计算：
[0067][0068]
其中为设备di(t)的通信发射功率，为通信信道增益，σ2为加性高斯白噪声，分别表示其他设备和基础设施通信功率、信道增益和设备集合。在时隙t中，服务提供者可能会从其他设备接收到不止一个的传输请求。本发明设定每个独立的请求遵循先到先服务，其到达遵循泊松分布。每个用户终端只有一张服务表，最多可以容纳n个请求。可以将每个设备接收到的服务请求建模为m/g/1排队系统。传输等待时延可以计算为：
[0069][0070]
其中变量λ表示任务的传输强度和表示两个设备之间的平均传输时延。θ2表示传输时延方差。通信时延可以通过计算，其中表示任务数据的传输时延。
[0071]
当在可用设备中不到服务时，服务提供者需要从网络中下载服务所需数据包并在剩余存储资源充足的情况下进行存储。本发明认为缓存在设备中的不同数据包遵循随机分布。缓存的数据包可以与其他可通信的设备共享。由于与基础设施通信的频谱资源的稀缺性，基础设施只能从网络上下载数据包。
[0072]
在获得全部输入数据后，服务提供者可以提供计算资源以执行服务。服务执行可达到处理速率(以兆字节/秒为单位)可由下式计算：
[0073][0074]
其中为服务si(t)的数据大小，α
ij
(t)为任务迁移的决策变量，且当i＝j时，表示服务在本地执行，为设备dj(t)的可用计算资源，r
comp
(t)为基础设施的可用计算资源，为服务si(t)的所需计算资源。
[0075]
基于上述模型，在设备dj(t)上执行服务si(t)的时延包含四个部分，即服务数据获取时延、服务所需数据包获取时延、执行时延和反馈时延。根据迁移率γi(t)将服务分为迁移部分和本地执行部分。本发明定义二进制决策变量α
ij
(t)来表示选定的服务提供者，当时，服务迁移到基础设施执行。而二进制决策变量β
ijh
(t)用来指示数据包共享设备，当时，服务所需数据包可以通过下载获得。因此，本地执行时延可以由下式计算：
[0076][0077]
即，本地执行时延为本地计算时延和本地获取数据包时延之和。其中，本地计算时延计算方式如下：
[0078][0079]
其中γi(t)为服务si(t)的迁移率，为服务si(t)执行所需的计算资源，为设备di(t)的计算能力。
[0080]
本地数据包获取时延如下：
[0081][0082]
其中β
iih
(t)为数据包获取的决策变量，为数据包大小，为本地获取数据包的通信速率，为传输等待时延，为数据包下载速率。
[0083]
而迁移执行时延计算方式如下：
[0084][0085]
其中为两设备的通信时延，为设备的计算时延，为服务所需数据包的获取时延，因此，迁移执行时延可以由下式计算：
[0086][0087]
其中α
ij
(t)为选择执行设备的二进制决策变量，γi(t)为服务si(t)的迁移率决策变量，为服务si(t)的数据大小，为服务si(t)的输出数据大小，为两设备间的通信速率，为两设备间的通信等待速率，β
ijh
(t)为服务数据包获取决策变量，为所需数据包大小，为设备下载速率，为数据包所需计算资源，为设备可用计算资源，r
comp
(t)为基础设施可用计算资源，r
down
(t)为基础设施数据下载速率。
[0088]
由于本地和迁移的部分是同时并行执行的，所以总的服务执行时延ti(t)可以通过下式获得：
[0089][0090]
即取本地执行和迁移执行部分的最大时延，其中为本地执行时延，为迁移执行时延。
[0091]
步骤1.2)：
[0092]
租金模型详细说明如下：
[0093]
由于用户的理性和自私性，需要一个公平的激励机制来推动设备合作。在本发明中，计算资源的租用单价随设备dj(t)的状态变化，其定义为：
[0094][0095]
其中参数κ代表价格系数，用于调整可用计算能力和设备剩余可用能量对单位租金的影响。这两个因素与单位租金呈负相关，以反映租用资源谋利的意愿趋势。定价函数可以分为两部分(即和)，以分别反映计算能力和剩余可用能量对定价的不同敏感度。本发明选择了指数函数来表示电池电量的更高灵敏度。如果极低，则不论可用计算资源多少，dj(t)都将提高其价格，以避免因耗电过多引起故障。
[0096]
图3显示了κ＝0.5时，两个相关状态因素对定价的影响示例，定价的多少侧面反映了服务提供者租赁资源向请求者提供服务的倾向。横轴表示时隙，纵轴表示剩余能量、可用
计算资源和租金的值。很明显，当剩余能量相当低时，无论可以使用多少计算资源，租金都会急剧上升以防止电量耗尽而崩溃。
[0097]
在现实世界中部署的基础设施具有固定的供电方式，因此基础设施的剩余电量可以认为始终是充足的。租金函数计算方式如下：
[0098][0099]
其中r
comp
(t)为基础设施可用计算资源，1剩余可用能量始终充足，κ为价格因子，因此，相应的能耗计算为
[0100][0101]
其中γi(t)为服务si(t)的迁移率，为本地计算时延，e
comp
为计算单位耗能百分比，为本地下载时延，e
down
为下载单位耗能百分比，为通信时延，e
comm
为通信单位耗能百分比。
[0102]
步骤2)：
[0103]
优化目标构建详细步骤如下：
[0104]
为了减少时变的异构资源状态对服务协作迁移性能的影响，本发明将服务时延和迁移支付费用分别作为服务协作迁移性能和成本的指标，双目标优化问题p1可表述为：
[0105][0106][0107]
其中表示执行时隙长度，α
ij
(t)表示服务迁移设备决策变量，β
ijh
(t)表示服务数据包获取决策变量，γi(t)为服务迁移率决策变量，ti(t)为设备执行时隙，pi(t)为资源租赁费用，s为待执行的服务请求总数。因此p1约束于
[0108][0109][0110][0111][0112][0113]
c6：γi(t)∈[0，1]，
[0114][0115]
约束c1确保服务的执行时延不能超过其可容忍的时延，以保证用户的体验质量，其中ti(t)为服务执行时延，为ki类服务的可容忍时延；约束c2保证每个服务的迁移部分都需要在可通信的时间内完成，其中为服务迁移执行时延，为两设备间可通信时延；约束c3确保每个服务提供者不应耗尽其剩余能量，以防止因能量耗尽导致服务中断，其中为设备剩余能量，为执行能耗，di(t)和分别表示设备和设备集合；c4限定了设备与基础设施的通信能力上限，α
ij
(t)为设备迁移决策变量，r
ch
(t)为信道数量上限；约束c5约束了二元决策变量取值，α
ij
(t)和β
ijh
(t)分别为设备迁移和服务数据包获取方式的决策变量，n
t
为设备总数；c6说明了服务迁移率γi(t)的取值范围，约束c7说明当迁移率γi(t)＝0时，没有服务提供者提供协作时，即(t)＝0时，没有服务提供者提供协作时，即
[0116]
步骤3)：
[0117]
构建的优化问题p1变化如下：
[0118]
由于问题p1的目的是最小化服务协作迁移的平均性能，本发明打算最小化每个时隙的服务协作迁移的平均时延ti(t)和成本pi(t)，p1可以转化为：
[0119][0120][0121]
受c1-c7约束。由于迁移率的存在，当本地执行时延和迁移执行时延相等时，服务执行时延ti(t)最低，因此p2可以改写为：
[0122][0123][0124][0125]
受c1-c7约束。由于两个决策变量α
ij
(t)和β
ijh
(t)之间相互耦合，为了评估帕累托最优解，本发明定义了一个度量效用来表示最优成本为因此，该联合
优化问题可以分解为两个子问题p4和p5如下：
[0126][0127]
受c3-c5约束。
[0128][0129]
受c1，c2，c7约束。
[0130]
步骤4)：
[0131]
获取专家轨迹详细步骤如下：
[0132]
本发明的系统同时涉及多个设备和多个迁移的服务。在时隙t中，服务请求者和服务提供者可以构造为两个没有交集的实体集，分别表示为务提供者可以构造为两个没有交集的实体集，分别表示为和根据观测的全局状态，可以得到迁移到每个设备上的效益。因此提出的问题可以转化为最大化总效益的匹配问题。
[0133]
步骤4.1)：
[0134]
在一个更新轮次内的每个时隙初，首先初始化设备的匹配次数dj(t).visit和服务的匹配次数si(t).visit为0，其中而后初始化每个设备的偏好值为0，即并初始化调整参数为∞；
[0135]
步骤4.2)：
[0136]
对于每个服务请求，首先获取在每个迁移设备上执行的最优迁移率，根据得到的匹配决策α
ij
(t)和β
ijh
(t)，迁移率的下限为：
[0137][0138]
其中为ki服务的可容忍时延，为本地获取数据包时延，为本地计算时延，当时，迁移率的上限为：
[0139][0140]
其中为两设备间可通信时延，为通信等待时延，为数据包获取时延，为通信时延，为计算时延。当为计算时延。当时，迁移率的上限为：
[0141]
[0142]
其中为服务的可容忍时延，为通信等待时延，为数据包获取时延，为通信时延，为计算时延。由于最优时延为本地时延和迁移时延相等时，因此，最优迁移率可以表示为：
[0143][0144]
其中为本地获取数据包时延，为本地计算时延，为迁移执行时延，为数据包获取时延，为通信时延，为计算时延。表示任务实际执行时延，可以观测到如果γi(t)＝0，月迁移率获取如下：
[0145][0146]
步骤4.3)：
[0147]
对于每一个尝试的迁移设备，如果约束c1-c7被满足，则将效益u
ij
(t)降序添加到服务si(t)的偏好列表中。否则的话，则将γi(t)＝0时的效益u
ij
(t)添加到偏好列表中。
[0148]
基于所有的偏好值获得每个服务请求的优先值为所有服务的最大偏好值。
[0149]
步骤4.4)：
[0150]
对于服务请求集合中的服务si(t)对设备集合执行匹配操作，具体执行过程如下：从集合中为si(t)到合适的执行设备的匹配过程。定义一个期望值u
ij
(t)为和之和。如果满足则si(t)将迁移到设备dj(t)并返回匹配结果。否则，匹配调整参数δj(t)则需要更新为其中为服务si(t)的偏好值，为设备dj(t)的偏好值，u
ij
(t)为期望值。
[0151]
步骤4.5)：
[0152]
如果步骤4.4)中未返回到匹配结果，则执行更新操来更新调整变量列表，对于之前没有匹配过的设备调整因子更新为min{δ，δj(t)}，其中δ为调整因子初始化为∞，δj(t)为调整变量，将所有访问过的服务的偏好值调整为调整所有车辆的偏好值调整为并将所有的调整变量δj(t)更新为δj(t)-δ。
[0153]
本发明设定基础设施作为专家节点可以获得完整的全局状态，并构建专家轨迹《s(t)，a(t)》。执行阶段可以划分为个批次，包含个状态-动作对以供更新模仿策略。为了实现边缘网络中的实时服务迁移，本发明提出了一种轻量级的分布式在线代理模仿策略。在完成专家策略后，可以得到专家的轨迹作为数据集
并传输给有需要的智能体训练策略。
[0154]
步骤5)：
[0155]
在线智能体策略详细步骤如下：
[0156]
在动态边缘网络中，设备被视为分布式智能体，通过模仿专家轨迹并接近专家策略来训练智能体策略做出迁移决策。然而，过大的专家轨迹数据集会产生巨大的通信负担，专家轨迹数据集也会随着时间的推移变得陈旧，因此，智能体需要重新训练模型以防止性能损失，这是一个计算资源消耗量巨大的重复过程。针对该问题，本发明提出了一个轻量级的在线代理策略，通过一些演示不断模仿更新的专家轨迹。
[0157]
模仿学习过程包含两种参与者：专家和智能体。设定d个时隙为一个更新周期，每个更新周期将更新专家轨迹数据集并将其提供给分布式智能体以学习。更新周期由表示，ε
l
中包括d个样本轨迹数据，以构建专家策略。每个设备都需要根据可观察到的信息独立学习策略并独立更新策略，以确保策略的准确性。智能体策略的更新步骤如下：
[0158]
步骤5.1)：
[0159]
在更新模型之前，需要对初始模型进行预训练以提供先验知识。在获得初始专家演示数据集ε0和专家策略后，每个智能体需要通过训练神经网络获得初始智能体模型。代理网络根据观察到的状态估计动作并根据损失函数拟合观察到的状态和估计的动作分布与专家策略πe(a，s)来训练其策略，损失函数如下：
[0160][0161]
其中表示智能体策略，πe(a，s)表示专家策略，a表示实际动作，s表示观测状态，表示预测动作，表示冻结参数，θ0表示初始参数，表示求期望。因此，参数的更新过程为：
[0162][0163]
其中lb表示基础学习器的学习率，表示损失函数的梯度。
[0164]
步骤5.2)：
[0165]
在更新周期中，表示更新周期集合。智能体获得了部分更新的专家轨迹ε
l
。为了加速模型的重复迁移过程，本发明利用元学习来记录模型迁移的缩放和转换。周期l中的元学习参数表示为ω
l
。元学习过程将转换为通过得到ω
l
。元学习的目标是使近似于
[0166]
智能体的元更新包含两个子阶段，即基础学习器训练和元学习器训练。在第l周期，从数据集中随机抽取专家轨迹ε
e，l
，然后采样条数据来训练基础学习模型，采样来训练元模型学习，且临时参数θ
′
l
由l-1周期的参数θ
l-1
初始化得到，并用于微调，更新为：
[0167]
[0168]
其中lb为基础学习器的学习率，为求基础学习器的损失函数梯度，为冻结参数，θ
l-1
为周期l-1的参数，ω
l-1
为元学习器参数。因此元学习器的参数ω
l
更新为：
[0169][0170]
其中lm为基础学习器的学习率，为求元学习器的损失函数梯度，为冻结参数，θ
′
l
为临时参数，ω
l-1
为l-1周期的元学习器参数。因此智能体参数θ
l
可以更新为：
[0171][0172]
其中lm为基础学习器的学习率，为求元学习器的损失函数梯度，为冻结参数，θ
′
l
为临时参数，ω
l
为l周期的元学习器参数。
[0173]
步骤5.3)：
[0174]
在完成第l次智能体训练后，分布式智能体根据策略基于观察到的状态做出迁移决策，直到他进入其他基础设施的覆盖范围或直到第(l+1)个更新周期，智能体重复第2阶段进行更新，智能体模型的更新过程能够轻量级持续模仿专家策略，在保留一些已知先验知识的同时高效地适应专家数据集。
[0175]
通过以上步骤，实现本发明所提出的协同传输。图4和图5显示了本发明的高效性。专家轨迹需要每隔一段时间更新一次，以防止数据过时造成性能损失。为保证专家轨迹的及时性。如图4所示，随着专家轨迹的更新，所提出的los智能体策略的运行时间急剧减少。综合图5的精度性能说明，无迁移的los策略需要重新训练代理策略以直接使用更新的数据集做出决策，浪费了先验知识并基于较小的数据集降低了准确性，准确率徘徊在0.74左右，很明显los的智能体策略更适合长期场景需要的持续更新。
[0176]
图6-9分别说明了在低工作负载和高工作负载下10个更新周期的平均迁移率和可达到服务质量的分布。根据提出的迁移率获取方案，最优迁移率的取值取决于选择的服务提供者和请求状态。高负载和低负载之间可实现的服务质量的差距相当小，如图8和图9所示。基于此，所提出的los策略(包括los智能体策略和los专家策略)的服务请求者达到了除服务全卸载之外的最高的服务质量，证明了所提出的los方案的高效性。
[0177]
在不同服务数据大小下的策略性能如图10-17所示。图10和11分别是在低工作负载和高工作负载下随着服务数据大小增加的平均时延。其中，los智能体策略的时延在低工作负载下从0.91秒增加到3.07秒，在高工作负载下从116.85秒增加到426.34秒，仅高于los专家策略。los智能体策略可以通过平衡通信和计算负载与可调整的迁移比率来适应不同的工作负载，在本地设备和迁移设备之间做出合理的权衡。图14和15分别显示了不同工作负载下的平均服务处理能耗百分比。很明显，平均能耗百分比随着服务数据量的增加而增加，结合图12和13中的支付性能下降，los专家策略获得了最优决策以降低费用，同时抑制了能耗的增长率，为los智能体策略模仿提供了较好的专家轨迹。图16和17分别评估了在地工作量下和高工作量下服务请求者的平均生存时间增。图17所示生存时间增益的快速下降表明通信消耗超过了高工作负载下节省的计算消耗，los智能体策略能够通过权衡不同的
工作负载获得接近最佳生存时间增益。
[0178]
不同的通信距离限制如图18-25所示。图18和19分别展示了在不同工作负载下的时延性能，其中los智能体策略相较于其他策略有着显著的优势。图22和23分别说明了低工作负载和高工作负载下的能耗。los智能体的能耗在低工作负载下增加，而在高工作负载下下降，说明服务请求者在高负载下更倾向于牺牲轻微的时延和能耗通过租用资源来迁移服务，图18和20同样可以解释。如图22、23、24、25所示，los智能体策略通过近似最优结果的los专家策略生成的全局状态-动作分布，可以更灵活地适应不同的可通信限制，减少本地耗能从而延长本地设备的生命周期。
[0179]
具有不同服务类别数量的策略的服务性能评估如图26-33所示。实验从3到9个服务类别进行，以评估算法在多个服务类别的情况下的泛化性。在相同的实验条件下，缓存内容类别越多，通信设备之间的缓存命中率较低。图26、27说明了，在相同条件下，los专家策略综合能够考虑可通信设备的通信、计算和缓存状态，从而产生的时延最小。具有及时更新策略的los智能体策略基于有限的观察状态具有很好的模仿性能。图28、29评估了支付费用性能，证明了los智能体策略的支付费用在缓存内容和迁移部分之间的令人满意的权衡，los智能体策略对不断增加的服务类别的适应，而且证明了智能体策略可以准确地模拟专家决策分布并获得接近最优的决策。如图30、31所示，在不同的服务类别数量下，los智能体策略的平均能耗比其他算法更稳定。在不同的工作负载下，los智能体策略从3到9个服务类别之间只有很小的差距，从而提高了图32和33中评估的生存时间增益。这不仅因为los智能体策略同时考虑了服务请求者和提供者的状态，还因为los智能体策略能够基于部分观测状态获得全局状态拟合。los智能体策略的性能增益随着服务类别数量的增加而上升，表明los可以有效地适应多种服务类别的场景。
[0180]
以上方案内容仅表述本发明的技术方案，并非最完美精确的解决方案。随着技术的革新与时代的变迁，方案可能产生更合理更高效的变化。选择示例性实施方式并进行描述是为了解释本发明的原理和应用，为了便于研究人员与技术人员的参考、理解与实践本发明的具体细节。若在本发明构想的基础上所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的内容时，仍应属本发明的保护范围。

技术特征：

1.一种基于轻量级学习的实时服务迁移方法，其特征在于，包括以下步骤：1)构建动态边缘网络模型；根据基础设施的通信能力划分区域，一个区域包含服务提供者和服务请求者，设定服务迁移在离散的时隙中执行，用户终端在用作服务请求者的同时也可以用作服务提供者，服务请求者生成的服务设定为可以部分迁移到其他设备上执行，服务的迁移执行过程分为输入、执行和输出三个步，服务请求者将迁移的部分分解为本地执行和迁移执行两个部分并行执行，以分散工作负载来提高工作效率降低成本；2)分解服务迁移问题；将服务时延和迁移支付费用分别作为服务协作迁移性能和成本的指标，构建双目标优化问题；3)基础设施基于观测到的全局状态做出最优匹配策略；4)将专家数据集传给智能体以供智能体基于模仿学习训练智能体策略；5)智能体基于专家数据集训练智能体策略，并基于元学习策略，加速更新模型过程，从而摆脱传统神经网络的学习成本降低传统学习负载，设定d个时隙为一个更新周期，每个更新周期将更新专家轨迹数据集并将其提供给分布式智能体以学习，每个设备都需要根据可观察到的信息独立学习策略并独立更新策略，以确保策略的准确性。2.根据权利要求1所述一种基于轻量级学习的实时服务迁移方法，其特征在于：步骤1)具体包括构建服务时延和迁移支付费用；1.1所述服务时延为，其中为本地执行时延，为迁移执行时延；为迁移执行时延；为本地计算时延，为本地获取数据包时延；所述迁移执行时延为，其中为两设备的通信时延，为设备的计算时延，为服务所需数据包的获取时延；1.2所述迁移支付费用计算过程如下：计算资源的租用单价随状态d
j
(t)变化，其定义为：其中参数κ代表价格系数，用于调整可用计算能力和剩余能量对单位租金的影响；租金函数计算方式如下：其中r
comp
(t)为基础设施可用计算资源，1表示剩余可用能量始终充足，κ为价格因子，因
此，相应的能耗计算为其中γ
i
(t)为服务s
i
(t)的迁移率，为本地计算时延，e
comp
为计算单位耗能百分比，为本地下载时延，e
down
为下载单位耗能百分比，为通信时延，e
comm
为通信单位耗能百分比。3.根据权利要求1所述一种基于轻量级学习的实时服务迁移方法，其特征在于：步骤2)所述优化问题p1为p1：p1：其中表示执行时隙长度，α
ij
(t)表示服务迁移设备决策变量，β
ijh
(t)表示服务数据包获取决策变量，γ
i
(t)为服务迁移率决策变量，t
i
(t)为设备执行时隙，p
i
(t)为资源租赁费用，s为待执行的服务请求总数，p1约束于用，s为待执行的服务请求总数，p1约束于用，s为待执行的服务请求总数，p1约束于用，s为待执行的服务请求总数，p1约束于用，s为待执行的服务请求总数，p1约束于c6：γ
i
(t)∈[0，1]，约束c1确保服务的执行时延不能超过其可容忍的时延，以保证用户的体验质量，其中t
i
(t)为服务执行时延，为k
i
类服务的可容忍时延；约束c2保证每个服务的迁移部分都需要在可通信的时间内完成，其中为服务迁移执行时延，为两设备间可通信时延；约束c3确保每个服务提供者不应耗尽其剩余能量，以防止因能量耗尽导致服务
中断，其中为设备剩余能量，为执行能耗，d
i
(t)和分别表示设备和设备集合；c4限定了设备与基础设施的通信能力上限，α
ij
(t)为设备迁移决策变量，r
ch
(t)为信道数量上限；约束c5约束了二元决策变量取值，α
ij
(t)和β
ijh
(t)分别为设备迁移和服务数据包获取方式的决策变量，n
t
为设备总数；c6说明了服务迁移率γ
i
(t)的取值范围，约束c7说明当迁移率γ
i
(t)＝0时，没有服务提供者提供协作时，即务提供者提供协作时，即4.根据权利要求1或3所述一种基于轻量级学习的实时服务迁移方法，其特征在于：步骤3)所述最优匹配策略将优化问题p1分解为两个子问题p4和p5如下：p4：受c3-c5约束；p5：受c1，c2，c7约束。5.根据权利要求4所述一种基于轻量级学习的实时服务迁移方法，其特征在于：所述步骤4)具体包括：步骤4.1)：在一个更新轮次内的每个时隙初，首先初始化设备的匹配次数d
j
(t).visit和服务的匹配次数s
i
(t).visit为0，其中而后初始化每个设备的偏好值为0，即并初始化调整参数为∞；步骤4.2)：对于每个服务请求，首先获取在每个迁移设备上执行的最优迁移率，根据得到的匹配决策α
ij
(t)和β
ijh
(t)，迁移率的下限为：其中为k
i
服务的可容忍时延，为本地获取数据包时延，为本地计算时延，当时，迁移率的上限为：其中为两设备间可通信时延，为通信等待时延，为数据包获取时延，为通信时延，为计算时延。当为计算时延。当时，迁移率的上限为：
其中为服务的可容忍时延，为通信等待时延，为数据包获取时延，为通信时延，为计算时延。由于最优时延为本地时延和迁移时延相等时，因此，最优迁移率可以表示为：其中为本地获取数据包时延，为本地计算时延，为迁移执行时延，为数据包获取时延，为通信时延，为计算时延，表示任务的实际执行时延；若γ
i
(t)＝0，且(t)＝0，且迁移率获取如下：步骤4.3)：对于每一个尝试的迁移设备，如果约束c1-c7被满足，则将效益u
ij
(t)降序添加到服务s
i
(t)的偏好列表中，否则将γ
i
(t)＝0时的效益u
ij
(t)添加到偏好列表中；基于所有的偏好值获得每个服务请求的优先值为所有服务的最大偏好值；步骤4.4)：对于服务请求集合中的服务s
i
(t)对设备集合执行匹配操作，具体执行过程如下：从集合中为s
i
(t)到合适的执行设备的匹配过程，定义一个期望值u
ij
(t)为和之和，如果满足则s
i
(t)将迁移到设备d
j
(t)并返回匹配结果，否则，匹配调整参数δ
j
(t)则需要更新为其中为服务s
i
(t)的偏好值，为设备d
j
(t)的偏好值，u
ij
(t)为期望值。步骤4.5)：如果步骤4.4)中未返回到匹配结果，则执行更新操来更新调整变量列表，对于之前没有匹配过的设备调整因子更新为min{δ，δ
j
(t)}，其中δ为调整因子初始化为∞，δ
j
(t)为调整变量，将所有访问过的服务的偏好值调整为调整所有车辆的偏好值调整为并将所有的调整变量δ
j
(t)更新为δ
j
(t)-δ。
6.根据权利要求1所述一种基于轻量级学习的实时服务迁移方法，其特征在于：步骤5)所述智能体策略的更新步骤如下：步骤5.1)：获得初始专家演示数据集ε0和专家策略后，每个智能体通过训练神经网络获得初始智能体模型，代理网络根据观察到的状态估计动作并根据损失函数拟合观察到的状态和估计的动作分布与专家策略π
e
(a，s)来训练其策略，损失函数如下：其中表示智能体策略，π
e
(a|s)表示专家策略，a表示实际动作，s表示观测状态，表示预测动作，表示冻结参数，θ0表示初始参数，表示求期望；因此，参数的更新过程为：其中ι
b
表示基础学习器的学习率，表示损失函数的梯度；步骤5.2)：在更新周期中，表示更新周期集合，智能体获得了部分更新的专家轨迹ε
l
，利用元学习来记录模型迁移的缩放和转换，周期l中的元学习参数表示为ω
l
，元学习过程将转换为通过得到ω
l
，元学习的目标是使近似于步骤5.3)：在完成第l次智能体训练后，分布式智能体根据策略基于观察到的状态做出迁移决策，直到他进入其他基础设施的覆盖范围或直到第(l+1)个更新周期，智能体重复步骤5.2进行更新。7.根据权利要求6所述一种基于轻量级学习的实时服务迁移方法，其特征在于：所述智能体的元更新包含两个子阶段，即基础学习器训练和元学习器训练；在第l周期，从数据集中随机抽取专家轨迹ε
e，l
，然后采样条数据来训练基础学习模型，采样来训练元模型学习，且临时参数θ
′
l
由l-1周期的参数θ
l-1
初始化得到，并用于微调，更新为：其中ι
b
为基础学习器的学习率，为求基础学习器的损失函数梯度，为冻结参数，θ
l-1
为周期l-1的参数，ω
l-1
为元学习器参数；因此元学习器的参数ω
l
更新为：其中ι
m
为基础学习器的学习率，为求元学习器的损失函数梯度，为冻结参数，θ
′
l
为临时参数，ω
l-1
为l-1周期的元学习器参数；因此智能体参数θ
l
可以更新为：其中ι
m
为基础学习器的学习率，为求元学习器的损失函数梯度，为冻结参数，θ
′
l
为临时参数，ω
l
为l周期的元学习器参数。

技术总结

本发明公开了一种基于轻量级学习的实时服务迁移方法，构建了一个面向动态边缘网络的服务协同迁移框架，并构建了一个双目标优化问题以便同时优化服务性能和成本。针对该问题，提出了一种基于全局状态的离线专家策略，以提供最优结果作为专家轨迹。为了实现基于可观测状态的实时服务协作迁移，本发明基于模仿学习提出了一个轻量级的在线智能体策略来模仿专家轨迹，并利用元更新来加速模型迁移。实验性能结果表明，与其他代表性算法相比，本发明提出的方案能够显著提升迁移性能的同时降低训练成本，在不同的工作负载下，在服务时延、支付成本等多个指标上都具有明显优势。成本等多个指标上都具有明显优势。成本等多个指标上都具有明显优势。