资源配置方法、装置、电子设备、存储介质及程序产品与流程



1.本技术涉及计算机技术,尤其涉及一种资源配置方法、装置、电子设备、存储介质及程序产品。


背景技术:



2.一个系统中可以包括多个节点,该多个节点可以共享同一资源。以网络资源配置系统为例,该网络资源配置系统中的、手机等节点可以共享网络资源。然而,如何合理的进行资源配置是一个亟待解决的问题。
3.目前,现有的资源配置方法主要为:将一个系统中的多个节点建模到一个博弈模型,并通过部署有该博弈模型的电子设备运行该模型,使得各节点之间进行博弈。然后,根据博弈结果,确定各节点的资源配置。然而,上述现有的资源配置方法存在准确性较低的问题。


技术实现要素:



4.本技术提供一种资源配置方法、装置、电子设备、存储介质及程序产品,以提高资源配置的准确性。
5.第一方面,本技术提供一种资源配置方法,所述方法包括:
6.获取目标拓扑网络;所述目标拓扑网络的网络节点,与,目标系统中的各第一节点一一对应;所述第一节点为所述目标系统中待进行资源配置的节点;
7.针对任一所述第一节点,根据所述目标拓扑网络,以及,该第一节点对应的博弈策略,控制该第一节点与第二节点进行博弈,得到所述第一节点的博弈收益;所述第二节点包括:该第一节点,以及,在所述目标拓扑网络中距离该1跳的所有网络节点
8.根据所述第一节点的博弈收益,确定所述目标系统中的各第一节点的资源配置方式。
9.可选的,所述根据所述目标拓扑网络,以及,该第一节点对应的博弈策略,控制该第一节点与第二节点进行博弈,得到所述第一节点的博弈收益,包括:
10.根据所述目标拓扑网络,以及,该第一节点对应的博弈策略,控制该第一节点,与,在所述目标拓扑网络中距离该第一节点1跳的所有网络节点对应的第二节点进行博弈,得到初始博弈收益;
11.根据所述第一节点对应的博弈策略,得到所述第一节点的自博弈收益;
12.根据所述初始博弈收益,以及,所述自博弈收益,得到所述第一节点的博弈收益。
13.可选的,所述根据所述第一节点对应的博弈策略,得到所述第一节点的自博弈收益,包括:
14.根据所述第一节点对应的博弈策略,以及,预先存储的博弈策略与自博弈收益的映射关系,确定所述第一节点的自博弈收益。
15.可选的,所述根据所述第一节点对应的博弈策略,得到所述第一节点的自博弈收
益,包括:
16.若确定所述第一节点对应的博弈策略为合作策略,则生成大于或等于第一预设值,且小于或等于第二预设值的随机数,并将所述随机数作为所述第一节点的自博弈收益。
17.可选的,若所述第一节点对应的博弈策略为背叛策略,所述自博弈收益小于或等于0。
18.可选的,所述目标系统为网络资源配置系统;在所述根据所述第一节点的博弈收益,确定所述目标系统中的各第一节点的资源配置方式之后,所述方法还包括:
19.将所述资源配置方式发送至所述目标系统中的网络资源分配节点,以使所述网络资源分配节点按照所述资源配置方式,对所述各第一节点进行网络资源配置。
20.第二方面,本技术提供一种资源配置装置,所述装置包括:
21.获取模块,用于获取目标拓扑网络;所述目标拓扑网络的网络节点,与,目标系统中的各第一节点一一对应;所述第一节点为所述目标系统中待进行资源配置的节点;
22.处理模块,用于针对任一所述第一节点,根据所述目标拓扑网络,以及,该第一节点对应的博弈策略,控制该第一节点与第二节点进行博弈,得到所述第一节点的博弈收益;根据所述第一节点的博弈收益,确定所述目标系统中的各第一节点的资源配置方式;其中,所述第二节点包括:该第一节点,以及,在所述目标拓扑网络中距离该第一节点1跳的所有网络节点。
23.第三方面,本技术提供一种电子设备,所述电子设备包括存储器和处理器;
24.所述存储器中存储有计算机程序;
25.所述处理器被设置为通过所述计算机程序执行第一方面中任一项所述的方法。
26.第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机执行指令,当所述计算机执行指令被处理器执行时,实现第一方面任一项所述的方法。
27.第五方面,本技术提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面任一项所述的方法。
28.本技术提供的资源配置方法、装置、电子设备、存储介质及程序产品,通过将目标系统中的各第一节点对应在目标拓扑网络中的网络节点上,实现将目标系统建模在该目标拓扑网络中。电子设备在获取该目标拓扑网络,可以基于该目标拓扑网络以及各第一节点的博弈策略,控制第一节点与包括了“第一节点,以及,在目标拓扑网络中距离该第一节点1跳的所有网络节点”的第二节点进行博弈。根据该第一节点的博弈收益,可以获取各第一节点的资源配置方式。通过上述博弈,不仅可以实现第一节点与其他节点的博弈,还可以实现第一节点的自博弈。因此,上述方法考虑了第一节点本身的自相互作用对系统资源分配的影响,进而提高了资源配置的准确性。
附图说明
29.为了更清楚地说明本技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
30.图1为现有的基于博弈确定资源配置方法的流程示意图;
31.图2为本技术提供的一种资源配置方法的流程示意图;
32.图3为本技术提供的一种拓扑网络的结构示意图;
33.图4为本技术提供的另一种资源配置方法的流程示意图;
34.图5为本技术提供的一种合作比率ρc随参数b变化的示意图;
35.图6为本技术提供的另一种合作比率ρc随参数b变化的示意图;
36.图7为本技术提供的一种博弈结束时目标系统中各第一节点的博弈策略的示意图;
37.图8为本技术提供的一种资源配置装置的结构示意图;
38.图9为本技术提供的一种电子设备结构示意图。
39.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
40.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术中的附图,对本技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
41.下面首先对本技术涉及到的部分名词概念进行解释:
42.策略:系统中的每个节点可以向其他节点提供资源(也就是资源共享),也可以不向其他节点提供资源。上述是否向其他节点提供资源的行为即为该节点的策略。其中,向其他节点提供资源的策略可以称为合作策略。不向其他节点提供资源的策略可以称为背叛策略。
43.博弈:在一定的规则下,系统中的多个节点,各自选择适应的策略实施,并得到相应的收益的过程。在博弈过程中,若节点的策略是有限个,则称为“有限博弈”;若节点的策略是无限个,则称为“无限博弈”。
44.收益:在博弈过程中,节点因合作策略或者背叛策略得到的收益。不同系统中对应的节点的收益所表征的意义可以不同。例如,以上述系统为网络资源配置系统为例,上述节点的收益可以用于表征该节点可获取的网络资源的多少。以上述系统为电力资源配置系统为例,上述节点的收益可以用于表针该节点可获取的电力资源的多少。
45.规则拓扑网络:规则拓扑网络可以是指平移对称性晶格(平移对称性晶格任何一个格点的近邻数都是相同的)。
46.邻域:拓扑网络中,任一网络节点周围的节点组成的集合可以称为该网络节点的邻域。
47.囚徒困境博弈(prisoner's dilemma game,pdg):pdg是博弈论的非零和博弈中具代表性的博弈方式。
48.蒙特卡洛仿真(monte-carlo simulation,mcs):mcs是一种随机模拟方法,以概率和统计理论方法为基础的一种仿真方法。将所求解的问题同一定概率模型相联系,通过电
子设备实现统计模拟或抽样,以获得问题的近似解。
49.纳什均衡:又称为非合作博弈均衡。在博弈过程中,无论其他节点的策略选择如何,本节点都会选择某个确定的策略,且该策略可以称为支配性策略。如果任一节点在其他节点的策略确定的情况下,该节点选择的策略是最优的,那么这个组合可以定义为纳什均衡。
50.一个系统中可以包括多个节点,该多个节点可以共享同一资源。以网络资源配置系统为例,该网络资源配置系统中的、手机等节点可以共享网络资源。然而,如何合理的进行资源配置是一个亟待解决的问题。
51.目前,现有的资源配置方法主要为:将一个系统中的多个节点建模到一个博弈模型,并通过部署有该博弈模型的电子设备运行该模型,使得各节点之间进行博弈。然后,根据博弈结果,确定各节点的资源配置。下面对现有的基于博弈确定系统中各节点的资源配置的方法进行详细说明:
52.图1为现有的基于博弈确定资源配置方法的流程示意图。如图1所示,现有的基于博弈确定资源配置的方法主要可以包括以下步骤:
53.步骤1、将目标系统中各节点的交互活动建模到囚徒困境博弈。
54.步骤2、将上述各节点安置在一拓扑网络的网络节点上,并随机初始化各节点的策略(例如该策略可以为合作策略或背叛策略),且将各节点的博弈收益清0。
55.步骤3、针对任一节点,在每一代博弈开始时,将该节点的博弈收益清0。然后电子设备可以通过上述囚徒困境博弈模型,根据上述拓扑网络,控制该节点,与,该节点的2-5跳范围内的所有邻居节点进行博弈。
56.步骤4、通过将所有的两两相连的节点之间各博弈一次,计算该节点的收益矩阵参数。
57.步骤5、根据该节点2-5跳范围内的各邻居的博弈收益,调整该节点在下一代博弈中的策略(合作或背叛),并记录该系统的合作比率。
58.其中,智能体调整策略具体按照如下两种规则之一进行:
59.1.无条件学习规则:一轮博弈之后,让智能体去学习其邻居中收益最大的邻居所采取的策略;
60.2.复制子动态规则:一轮博弈完成后,智能体a会随机选择一个邻居智能体b,如果a的收益大于其随机选择到的这个邻居b的收益,那么a仍然会坚持自己的策略,而不去学习邻居b的策略。如果b的收益比a的大,那么智能体a将以一定的概率去学习b的策略。
61.步骤6、重复执行上述步骤3-步骤5,直到根据合作比率确定针对该系统的博弈结束,并获取博弈结束时,该系统各节点的博弈收益。
62.步骤7、根据各节点的博弈收益,确定该系统各节点的资源配置方式。
63.发明人通过研究发现,在现实场景中,个体(也就是上述系统中的任一节点)的自我检查和策略,也会对系统的资源分配产生影响。然而,在使用现有的基于博弈的资源配置方法时,系统中的各节点仅与该节点的2-5跳范围内的邻居节点进行博弈。因此,现有资源配置方法存在准确性较差的问题。
64.考虑到现有的资源配置方法存在上述准确性较差的问题原因是任一节点仅与该节点的2-5跳范围内的邻居节点进行博弈,因此,本技术提出了一种通过基于节点的自博
弈,确定系统的资源配置方式的方法。通过上述方法,任一节点不仅可以与系统中的其他节点进行博弈,还可以与自身进行自相互作用(也就是自博弈),考虑了个体的自我检查和策略对系统资源分配的影响,进而提高了资源配置的准确性。
65.应理解,本技术提供的资源配置方法的执行主体可以为终端、服务器等任意一种具有处理功能的电子设备。此外,应理解,本技术对该资源配置方法的应用场景也不进行限定。示例性的,该资源配置方法可以应用于网络资源配置系统、电力资源配置系统、计算资源配置系统等任一需要进行合理资源分配的系统。
66.下面结合具体地实施例对本技术的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
67.图2为本技术提供的一种资源配置方法的流程示意图。如图2所示,该方法可以包括以下步骤:
68.s101、获取目标拓扑网络。其中,该目标拓扑网络的网络节点,与,目标系统中的各第一节点一一对应。
69.应理解,本技术对上述拓扑网络的类型并不进行限定。上述拓扑网络例如可以为前述规则拓扑网络。示例性的,图3为本技术提供的一种拓扑网络的结构示意图。如图3中所示的白圆圈、黑方形和黑圆圈均为拓扑网络的网络节点。
70.上述第一节点为该目标系统中待进行资源配置的节点。可选的,目标系统中的所有节点可以均为第一节点,或者,目标系统中的部分节点为第一节点。
71.可选的,用于执行本技术提供的资源配置方法的电子设备可以属于上述目标系统,也可以不属于上述目标系统。
72.示例性的,电子设备例如可以通过响应用户触发的将目标系统的各节点建模到该目标拓扑网络的操作,获取上述目标拓扑网络。或者,电子设备还可以通过应用程序接口(application programming interface,api),或者,图形用户界面(graphical user interface,gui)接收用户输入的该目标拓扑网络。
73.s102、针对任一第一节点,根据目标拓扑网络,以及,该第一节点对应的博弈策略,控制该第一节点与所有第二节点进行博弈,得到第一节点的博弈收益。
74.上述第二节点可以包括:该第一节点,以及,在该目标拓扑网络中距离该第一节点1跳的所有的第一节点。示例性的,仍然以图3为例,假定第一节点为黑圆形网络节点,在该目标拓扑网络中距离该第一节点1跳的所有网络节点包括如图3中所示的四个黑方形节点。
75.可选的,上述第一节点对应的博弈策略可以为合作策略或者背叛策略。
76.应理解,本技术对电子设备如何控制该第一节点与第二节点进行博弈,并不进行限定。示例性的,电子设备可以将上述目标拓扑网络,以及,各第一节点对应的博弈策略,输入至预设的博弈模型,以通过该博弈模型使得第一节点与第二节点进行博弈。其中,该博弈模型可以为任意一种现有的博弈模型,例如pdg、雪堆博弈模型(snowdrift game,sdg)等任意一种现有的博弈模型。
77.以上述目标系统为网络资源配置系统为例,上述第一节点的博弈收益可以用于表征该第一节点可获取的网络资源(例如带宽、信号强度等)的多少,或者,该第一节点获取网络资源的优先等级等。以上述目标系统为电力资源配置系统为例,上述第一节点的博弈收
益可以用于表针该第一节点可获取的电力资源的多少。
78.s103、根据第一节点的博弈收益,确定目标系统中的各第一节点的资源配置方式。
79.可选的,电子设备可以根据上述步骤s102所述方法进行多伦博弈,每轮博弈可以对第一节点的策略进行更新,直到电子设备确定针对该目标系统的博弈完成。然后,电子设备可以获取针对该目标系统的博弈完成时,该目标系统中的各第一节点的博弈收益,并将各第一节点的博弈收益所表征的资源多少,确定目标系统中的各第一节点的资源配置方式。
80.应理解,本技术对电子设备如何根据第一节点的博弈收益,确定目标系统中的各第一节点的资源配置方式,并不进行限定。可选的,可以参照任意一种现有的根据节点的博弈收益确定系统中的各节点的资源配置方式的方法,本技术在此不在赘述。
81.在本实施例中,通过将目标系统中的各第一节点对应在目标拓扑网络中的网络节点上,实现将目标系统建模在该目标拓扑网络中。电子设备在获取该目标拓扑网络,可以基于该目标拓扑网络以及各第一节点的博弈策略,控制第一节点与该第一节点自身,以及,在目标拓扑网络中距离该第一节点1跳的所有的第一节点进行博弈。根据该第一节点的博弈收益,可以获取各第一节点的资源配置方式。通过上述博弈,不仅可以实现第一节点与其他节点的博弈,还可以实现第一节点的自博弈。因此,上述方法考虑了第一节点本身的自相互作用对系统资源分配的影响,进而提高了资源配置的准确性。
82.此外,通过上述方法,电子设备可以将该第一节点与距离该第一节点不超过1跳的所有的第一节点进行博弈,相较于现有技术中仅进行2-5跳的节点的博弈的方式(学习成本开销大,局限性较大),本技术提供的资源破配置方法还节约了资源共享的路径,更符合实际的目标系统中进行资源共享。
83.下面对电子设备如何根据目标拓扑网络,以及,该第一节点对应的博弈策略,控制该第一节点与第二节点进行博弈,得到第一节点的博弈收益进行详细说明:
84.作为一种可能的实现方式,电子设备可以先根据目标拓扑网络,以及,该第一节点对应的博弈策略,控制该第一节点,与,在目标拓扑网络中距离该第一节点1跳的所有网络节点对应的第二节点进行博弈,得到初始博弈收益。
85.可选的,电子设备例如将上述目标拓扑网络,以及,各第一节点对应的博弈策略,输入至预设的博弈模型,以通过该博弈模型使得第一节点与在目标拓扑网络中距离该第一节点1跳的所有网络节点对应的第二节点进行博弈。
86.示例性的,电子设备例如可以按照相同的概率确定每个第一节点的初始策略为合作策略还是背叛策略。其中,合作策略可以表示为状态向量s
x
={0,1}。背叛策略可以表示为状态向量s
x
={1,0}。示例性的,上述初始博弈收益的形式例如可以如下公式(1)所示:
[0087][0088]
其中,是上述状态向量s
x
的转置。ω
x
表示在von-neumann和moore邻域中的相互作用的邻域(也就是在目标拓扑网络中距离该第一节点小于或等于1跳的所有网络节点对应的第二节点对应的邻域范围)。sy表示在目标拓扑网络中距离该第一节点1跳的所有网络节点对应的第二节点的状态向量,可以用于表征该第二节点的策略是合作策略还是背叛策略。p
x
表示初始博弈收益。q表示博弈收益矩阵。以上述博弈模型为pdg为例,该博弈收益矩
阵例如可以如下公式(2)所示:
[0089][0090]
其中,该矩阵中的1表示选择合作策略时,则获得奖励r(reward)。其中该r可以等于1。该矩阵的右上角表示如果博弈双方选择了不同的博弈策略,选择合作策略的节点将获得受骗s(sucker)收益,例如0,选择背叛策略的节点将获得引诱t(temptation)收益,例如上述矩阵中的b。b可以表示在该pdg中,节点策略为背叛策略时,该节点收益需扣除的量(也就是选择背叛策略的代价)。可选的,1≤b≤2。该矩阵中右下角的0表示选择背叛策略时,则都被惩罚p(punishment),例如该p可以等于0。
[0091]
电子设备在得到上述初始博弈收益之后,可以根据第一节点对应的博弈策略,得到该第一节点的自博弈收益。
[0092]
在一些实施例中,电子设备例如可以根据第一节点对应的博弈策略,以及,预先存储的博弈策略与自博弈收益的映射关系,确定该第一节点的自博弈收益。示例性的,该博弈策略与自博弈收益的映射关系例如可以为用户预先存储在该电子设备中的。在一些实施例中,电子设备例如还可以在根据第一节点对应的博弈策略,得到该第一节点的自博弈收益之前,接收用户输入的该博弈策略与自博弈收益的映射关系。
[0093]
示例性的,该博弈策略与自博弈收益的映射关系例如可以为如下表1所示:
[0094]
表1
[0095]
博弈策略自博弈收益合作策略 背叛策略p
[0096]
以表1所示的映射关系为例,假定该第一节点对应的博弈策略为合作策略,则电子设备可以确定该第一节点的自博弈收益为δ。示例性的,该δ的例如可以为大于或等于0且小于或等于1之间的任意一个数值。假定该第一节点对应的博弈策略为背叛策略,则电子设备可以确定该第一节点的自博弈收益为p。其中,该p例如可以小于或等于0。
[0097]
或者,在一些实施例中,若电子设备确定第一节点对应的博弈策略为合作策略,电子设备还可以生成大于或等于第一预设值,且小于或等于第二预设值的随机数,并将该随机数作为第一节点的自博弈收益。
[0098]
其中,上述第一预设值和第二预设值可以均为用户预先存储在该电子设备中的。在一些实施例中,上述第一预设值和第二预设值可以均为大于或等于0的整数,第一预设值小于第二预设值。
[0099]
在第一节点对应的博弈策略为合作策略时,通过将上述随机数作为该第一节点的自博弈收益,实现了对该第一节点选择合作策略的奖励,促进了目标系统中资源共享的实现。
[0100]
可选的,在一些实施例中,若该第一节点对应的博弈策略为背叛策略,则该第一节点的自博弈收益可以为小于或等于0。通过在第一节点对应的博弈策略为背叛策略时,将第一节点的自博弈收益置小于或等于0,实现了对第一节点选择背叛策略的惩罚。
[0101]
电子设备在获取第一节点的初始博弈收益,以及,自博弈收益之后,可以根据上述初始博弈收益,以及,自博弈收益的和,得到第一节点的博弈收益。示例性的,电子设备例如
可以直接将第一节点的初始博弈收益与自博弈收益的和,作为第一节点的博弈收益。
[0102]
在本实施例中,电子设备可以先获取第一节点,与,在该目标拓扑网络中距离该第一节点1跳的所有网络节点对应的第二节点进行博弈得到初始博弈收益。然后获取根据第一节点对应的博弈策略,确定的第一节点的自博弈收益。然后,电子设备可以获取基于自博弈收益和初始博弈收益确定的第一节点的博弈收益。通过在第一节点的博弈收益中添加自博弈收益,考虑了第一节点本身的自相互作用对系统资源分配的影响,激励了体合作行为,提高了资源配置的准确性。
[0103]
作为另一种可能的实现方式,在根据初始博弈收益,以及,自博弈收益,得到第一节点的博弈收益之前,电子设备还可以先根据第一节点对应的博弈策略,得到第一节点的自博弈收益。然后,电子设备再根据目标拓扑网络,以及,该第一节点对应的博弈策略,控制该第一节点,与,在目标拓扑网络中距离该第一节点1跳的所有网络节点对应的第二节点进行博弈,得到初始博弈收益。
[0104]
再或者,电子设备还可以同时执行“根据第一节点对应的博弈策略,得到第一节点的自博弈收益”的步骤,以及,“根据目标拓扑网络,以及,该第一节点对应的博弈策略,控制该第一节点,与,在目标拓扑网络中距离该第一节点1跳的所有网络节点对应的第二节点进行博弈,得到初始博弈收益”的步骤。
[0105]
在一些实施例中,以上述目标系统为网络资源配置系统为例,电子设备在根据第一节点的博弈收益,确定目标系统中的各第一节点的资源配置方式之后,还可以将该资源配置方式发送至目标系统中的网络资源分配节点,以使该网络资源分配节点按照上述资源配置方式,对该目标系统中的各第一节点进行网络资源配置。
[0106]
示例性的,网络资源分配节点例如可以为集线器(hub)中心或者该网络资源配置系统中的其他网络接入点。
[0107]
在本实施例中,通过将各第一节点的资源配置方式发送至目标系统中的网络资源分配节点,使得该网络资源分配节点能够按照上述资源配置方式,对该目标系统中的各第一节点进行网络资源配置,进而提高了目标系统中的各第一节点的网络资源配置的准确性,提高了该目标系统中的各节点使用分配的网络资源执行任务的效率。
[0108]
仍然以目标系统为网络资源配置系统为例,该网络资源配置系统中的各节点(例如移动塔、手机、wlan或者将这些节点理解为不同供应商的网络资源总成)通常可以在自己的网络或网络区域内进行资源申请和使用,并不会分享其网络资源。当网络资源(例如带宽、信号强度等)出现紧张情况,影响网速、传输时效,进而影响用户体验。而当自身网络资源充裕时,又不能分享自己的资源,造成不小的浪费。因此,如何进行合理的网络资源分配是至关重要的。
[0109]
图4为本技术提供的另一种资源配置方法的流程示意图。如图4所示,示例性的,电子设备例如可以响应用户触发的对该网络资源配置系统进行建模的操作,开始执行下述步骤:
[0110]
首先,电子设备可以响应用户触发的建模操作,将网络资源配置系统中的各第一节点(也就是算力节点)建模到(或者说是映射到)目标拓扑网络中(该目标拓扑网络可以由逻辑矩阵表示)。可选的,该目标拓扑网络的类型可以为非同质性网络。可选的,该目标拓扑网络的形式例如可以为晶格网络或逻辑晶格网络。
[0111]
然后,电子设备可以控制算力节点与邻域节点博弈(包括自身博弈),也就是控制第一节点,与,包括了“第一节点和在该目标拓扑网络中距离该第一节点1跳以内的网络节点”的第二节点进行博弈。其中,博弈和收益计算规则可以如下所述:
[0112]
逻辑相邻的两个第一节点,假设双方分享各自网络资源值时的收益均为1(收益可以用于表征额外的网络资源收益或网络资源优先获取等级等,具体可以根据建模时所赋予的建模含义确定)。单方分享网络资源收益为0;不分享网络资源方收益为b,双方都不分享网络资源则收益都为0。
[0113]
以图3为例,当第一节点与邻域4个第一节点博弈后,第一节点可以进行自相互作用(也就是自博弈)。若该第一节点的博弈策略为合作策略(即分享网络资源),则获得额外收益(也就是自博弈收益)δ。若该第一节点的博弈策略为背叛策略,则对自己惩罚,惩罚数(也就是自博弈收益)可以为p(惩罚可以用于表征网络资源损失、降低网络资源获取等级等)。其中,p的值可以与博弈模型的系数有关。以pdg为例,该p值可以为0。
[0114]
在博弈开始时,可以执行下述步骤:
[0115]
步骤1、电子设备随机初始化该网络资源配置系统中的各第一节点的博弈策略(合作或背叛),并将各第一节点的博弈收益清0。
[0116]
步骤2、电子设备随机选择1个第一节点,假设选取第一节点为x(如图3中所示的中心圆点)。
[0117]
步骤3、电子设备控制该第一节点开始和所有直接邻居(1跳以内的第一节点都可以作为邻居节点)第二节点进行博弈,获取该第一节点的初始博弈收益(具体实现方式参照前述实施例)。再与邻居博弈完成后,再与自身博弈,获取自身博弈收益。
[0118]
在计算完每个邻居收益之后,根据策略更新规则,第一节点x的博弈收益记为px,第二节点y的博弈收益记为py。按照如下的fermi概率,第一节点x向第二节点y学习节点y的博弈策略,可以如下公式(3)所示:
[0119][0120]
其中,k代表决策时策略更新,或者,非理性的程度的噪声因子强度,是一个固定值。
[0121]
步骤4、重复执行步骤1-3。该目标拓扑网络结构中的平均每个网络节点对应的第一节点都有机会进行一次mcs步骤的随机两两博弈去改变自己当前的博弈策略,也就是异步更新。在所有演化博弈步骤完成后,电子设备确定博弈出现稳定状态(表征该系统出现稳定状态)时,对目标系统中第一节点合作者(也就是选择合作策略的第一节点)比率进行统计并且记录。网络节点合作者比率的计算方法例如可以如下公式(4)所示:
[0122]
ρc=nc/(nc+nd)
ꢀꢀ
(4)
[0123]
其中,nc代表该系统中选择合作(分享网络资源)策略的网络节点的数量。nd代表该系统中选择背叛(不分享网络资源)策略的网络节点的数量。ρc表示合作者比率。
[0124]
电子设备在根据合作者比率确定博弈结束之后,可以将博弈结束状态下各第一节点对应的博弈收益作为该网络资源配置系统的资源配置方式,并将该资源配置方式发送至hub中心或该系统的网络接入点作为网络资源分配节点。hub中心可以将网络资源分配给终端设备,由此该网络资源配置系统中的各节点根据动态分配结果获得网络资源。
[0125]
通过执行上述博弈步骤,以博弈模型为pdg,且第一节点的自博弈收益为大于或等于第一预设值,且小于或等于第二预设值的随机数为例,图5为本技术提供的一种合作比率ρc随参数b变化的示意图。该b即为前述博弈收益矩阵中的参数b,可以表示惩罚程度。其中图5中的(1)表示4邻域情况下,合作比率ρc随参数b变化。其中,δ表示节点选择合作策略的自博弈收益。δ=0表示原始pdg模型。δ=[0,0.2]表示选择合作策略的自博弈收益为[0,0.2]之间的随机数,以此类推。图5中的(2)表示8邻域情况下,合作比率ρc随参数b变化。
[0126]
图6为本技术提供的另一种合作比率ρc随参数b变化的示意图。其中图6中的(1)表示4邻域情况下,合作比率ρc随参数b(可以表示惩罚程度)变化。其中,δ表示节点选择合作策略的自博弈收益。δ=0表示原始pdg模型。δ=0.2表示选择合作策略的自博弈收益为0.2,以此类推。图5中的(2)表示8邻域情况下,合作比率ρc随参数b变化。
[0127]
以上述b为1.1为例,图7为本技术提供的一种博弈结束时目标系统中各第一节点的博弈策略的示意图。如图7中的(a)、(b)、(c)、(d)、(e)、(f)所示,其中黑代表选择背叛策略的网络节点,白代表选择合作策略的网络节点。其中,(a)、(b)、(c)分别为节点选择合作策略的自博弈收益为0、0.2和0.4的情况。(d)、(e)、(f)分别为节点选择合作策略的自博弈收益为0、[0,0.2]和[0,0.4]之间的随机数的情况。如图7所示,在节点选择合作策略的自博弈收益为0.4时,该系统中的资源共享最多。
[0128]
在本实施例中,通过为博弈过程添加节点的自博弈收益,提高了基于博弈确定网络资源分配的准确性,进而提高了用户体验及资源共享程度。
[0129]
图8为本技术提供的一种资源配置装置的结构示意图。如图8所示,该装置包括:获取模块21、处理模块22。其中,
[0130]
获取模块21,用于获取目标拓扑网络。其中,所述目标拓扑网络的网络节点,与,目标系统中的各第一节点一一对应;所述第一节点为所述目标系统中待进行资源配置的节点。
[0131]
处理模块22,用于针对任一所述第一节点,根据所述目标拓扑网络,以及,该第一节点对应的博弈策略,控制该第一节点与第二节点进行博弈,得到所述第一节点的博弈收益;根据所述第一节点的博弈收益,确定所述目标系统中的各第一节点的资源配置方式。其中,所述第二节点包括:该第一节点,以及,在所述目标拓扑网络中距离该第一节点1跳的所有网络节点。
[0132]
可选的,处理模块22,具体用于根据所述目标拓扑网络,以及,该第一节点对应的博弈策略,控制该第一节点,与,在所述目标拓扑网络中距离该第一节点1跳的所有网络节点对应的第二节点进行博弈,得到初始博弈收益;根据所述第一节点对应的博弈策略,得到所述第一节点的自博弈收益;根据所述初始博弈收益,以及,所述自博弈收益,得到所述第一节点的博弈收益。
[0133]
可选的,处理模块22,具体用于根据所述第一节点对应的博弈策略,以及,预先存储的博弈策略与自博弈收益的映射关系,确定所述第一节点的自博弈收益。
[0134]
可选的,处理模块22,具体用于在确定所述第一节点对应的博弈策略为合作策略时,生成大于或等于第一预设值,且小于或等于第二预设值的随机数,并将所述随机数作为所述第一节点的自博弈收益。
[0135]
可选的,若所述第一节点对应的博弈策略为背叛策略,所述自博弈收益小于或等
于0。
[0136]
以所述目标系统为网络资源配置系统为例,该资源配置装置还可以包括:发送模块23,用于在所述根据所述第一节点的博弈收益,确定所述目标系统中的各第一节点的资源配置方式之后,将所述资源配置方式发送至所述目标系统中的网络资源分配节点,以使所述网络资源分配节点按照所述资源配置方式,对所述各第一节点进行网络资源配置。
[0137]
本技术提供的资源配置装置,用于执行前述资源配置方法实施例,其实现原理与技术效果类似,对此不再赘述。
[0138]
图9为本技术提供的一种电子设备结构示意图。如图9所示,该电子设备300可以包括:至少一个处理器301和存储器302。
[0139]
存储器302,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
[0140]
存储器302可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0141]
处理器301用于执行存储器302存储的计算机执行指令,以实现前述方法实施例所描述的资源配置方法。其中,处理器301可能是一个中央处理器(central processing unit,简称为cpu),或者是特定集成电路(application specific integrated circuit,简称为asic),或者是被配置成实施本技术实施例的一个或多个集成电路。
[0142]
可选的,该电子设备300还可以包括通信接口303。在具体实现上,如果通信接口303、存储器302和处理器301独立实现,则通信接口303、存储器302和处理器301可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(industry standard architecture,简称为isa)总线、外部设备互连(peripheral component,简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture,简称为eisa)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
[0143]
可选的,在具体实现上,如果通信接口303、存储器302和处理器301集成在一块芯片上实现,则通信接口303、存储器302和处理器301可以通过内部接口完成通信。
[0144]
本技术还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有程序指令,程序指令用于上述实施例中的方法。
[0145]
本技术还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得电子设备实施上述的各种实施方式提供的资源配置方法。
[0146]
最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。

技术特征:


1.一种资源配置方法,其特征在于,所述方法包括:获取目标拓扑网络;所述目标拓扑网络的网络节点,与,目标系统中的各第一节点一一对应;所述第一节点为所述目标系统中待进行资源配置的节点;针对任一所述第一节点,根据所述目标拓扑网络,以及,该第一节点对应的博弈策略,控制该第一节点与所有第二节点进行博弈,得到该第一节点的博弈收益;所述第二节点包括:该第一节点,以及,在所述目标拓扑网络中距离该第一节点1跳的所有的第一节点;根据所述第一节点的博弈收益,确定所述目标系统中的各第一节点的资源配置方式。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标拓扑网络,以及,该第一节点对应的博弈策略,控制该第一节点与所有第二节点进行博弈,得到所述第一节点的博弈收益,包括:根据所述目标拓扑网络,以及,该第一节点对应的博弈策略,控制该第一节点,与,在所述目标拓扑网络中距离该第一节点1跳的所有网络节点对应的第二节点进行博弈,得到初始博弈收益;根据所述第一节点对应的博弈策略,得到所述第一节点的自博弈收益;根据所述初始博弈收益与所述自博弈收益的和,得到所述第一节点的博弈收益。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一节点对应的博弈策略,得到所述第一节点的自博弈收益,包括:根据所述第一节点对应的博弈策略,以及,预先存储的博弈策略与自博弈收益的映射关系,确定所述第一节点的自博弈收益。4.根据权利要求2所述的方法,其特征在于,所述根据所述第一节点对应的博弈策略,得到所述第一节点的自博弈收益,包括:若确定所述第一节点对应的博弈策略为合作策略,则生成大于或等于第一预设值,且小于或等于第二预设值的随机数,并将所述随机数作为所述第一节点的自博弈收益。5.根据权利要求2-4任一项所述的方法,其特征在于,若所述第一节点对应的博弈策略为背叛策略,则所述自博弈收益小于或等于0。6.根据权利要求1-4任一项所述的方法,其特征在于,所述目标系统为网络资源配置系统;在所述根据所述第一节点的博弈收益,确定所述目标系统中的各第一节点的资源配置方式之后,所述方法还包括:将所述资源配置方式发送至所述目标系统中的网络资源分配节点,以使所述网络资源分配节点按照所述资源配置方式,对所述各第一节点进行网络资源配置。7.一种资源配置装置,其特征在于,所述装置包括:获取模块,用于获取目标拓扑网络;所述目标拓扑网络的网络节点,与,目标系统中的各第一节点一一对应;所述第一节点为所述目标系统中待进行资源配置的节点;处理模块,用于针对任一所述第一节点,根据所述目标拓扑网络,以及,该第一节点对应的博弈策略,控制该第一节点与第二节点进行博弈,得到该第一节点的博弈收益;根据所述第一节点的博弈收益,确定所述目标系统中的各第一节点的资源配置方式;其中,所述第二节点包括:该第一节点,以及,在所述目标拓扑网络中距离该第一节点1跳的所有的第一节点。8.一种电子设备,其特征在于,所述电子设备包括存储器和处理器;
所述存储器中存储有计算机程序;所述处理器被设置为通过所述计算机程序执行权利要求1-6中任一项所述的方法。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机执行指令,当所述计算机执行指令被处理器执行时,实现权利要求1-6任一项所述的方法。10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法。

技术总结


本申请提供一种资源配置方法、装置、电子设备、存储介质及程序产品。方法包括:获取目标拓扑网络;目标拓扑网络的网络节点,与,目标系统中的各第一节点一一对应;第一节点为目标系统中待进行资源配置的节点;针对任一第一节点,根据目标拓扑网络,以及,该第一节点对应的博弈策略,控制该第一节点与第二节点进行博弈,得到第一节点的博弈收益;第二节点包括:该第一节点,以及,在目标拓扑网络中距离该第一节点1跳的所有第一节点;根据第一节点的博弈收益,确定目标系统中的各第一节点的资源配置方式。本申请提高了资源配置的准确性。本申请提高了资源配置的准确性。本申请提高了资源配置的准确性。


技术研发人员:

关雯丹

受保护的技术使用者:

中国农业银行股份有限公司

技术研发日:

2022.09.29

技术公布日:

2022/12/12

本文发布于:2024-09-20 16:25:51,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/34595.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:节点   所述   资源配置   收益
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议