一种多域多层级跨链网络协同方法及装置



1.本发明属于区块链跨链网络协同技术领域,涉及一种多域多层级跨链网络协同方法及装置。


背景技术:



2.区块链从本质上讲,它是一个共享数据库,存储于其中的数据或信息,具有“不可伪造、全程留痕、可以追溯、公开透明、集体维护”等特征。基于这些特征,区块链技术奠定了坚实的“信任”基础,创造了可靠的“合作”机制,具有广阔的运用前景。
3.在区块链所面临的诸多问题中,链与链之间的互通性缺失很大程度限制了区块链的应用空间。跨链主要包括信息跨链和价值跨链两种应用场景,跨链互操作协议的严谨描述、规范实现和普遍应用将成为实现“价值互联网”的关键。区块链跨链互操作技术提供了同构和异构区块链之间的信息交互和价值流转服务,可以满足区块链应用的业务扩展性需求。
4.传统的区块链跨链网络协同,如公证人机制、通过引入侧链以及中继链和哈希锁定等,都是通过判断所述业务协同请求的类型以及是否满足智能合约的执行条件,来进行跨链交互的。
5.现有技术存在以下缺陷:当跨链网络是多层以及多区域的情况下,这些方法就会无法动态跟踪实际情况的变化,也就不能正确进行跨链协同操作,会产生异常,因此跨链网络协同方法还有待提升。


技术实现要素:



6.目的:针对现有技术存在的问题及需求,引入一种基于多智能体分层强化学习的多域多层级跨链网络协同系统和方法。基于多级跨链网络建立分层强化学习的跨链系统功能协同模式,构建双向协同秩序,采用任务、需求驱动的漏斗式双向多级分层强化学习策略,自顶而下面向跨链系统性能优化协同多维功能,自底而上响应跨链业务需求协同多维功能。同时采用多智能体链接跨链网络中的多区域活动功能以及要素集合,设计智能体协同动作与奖励,采用中心化学习、去中心化决策的方式训练协同智能体,实现跨链系统体协同下的便捷高性能协作。
7.技术方案:为解决上述技术问题,本发明采用的技术方案为:
8.第一方面,提供一种多域多层级跨链网络协同方法,包括:
9.获取跨链网络协同信息,其中,所述协同信息包括协同数据、所述协同数据所在的区块链的层级号、协同类型、所在区域、跨链交互次数、基础权重以及业务需求;
10.根据每个跨链网络协同信息中的跨链交互次数和基础权重,计算出其对于其他跨链网络的跨链权重值h;
11.根据所述协同信息划分跨链网络的区域以及层级,基于跨链业务需求以及跨链网络真实所在区域进行归类以及划分,形成多层级的活动功能、要素集合以及多区域的活动
功能、要素集合;
12.将每个区域当作一个多智能体,采用多智能体链接跨链网络中的多区域的活动功能、要素集合,形成以域划分的多智能体跨链网络集;
13.将所述以域划分的多智能体跨链网络集输入训练好的多智能体模型,根据所述多智能体模型的输出,得到各个区域的跨链网络的最佳域权重值;
14.将所述多层级的活动功能、要素集合输入训练好的分层强化学习模型,根据所述多智能体模型的输出,得到各个层级的跨链网络的最佳层级权重值;
15.基于各个区域的跨链网络的最佳域权重值和各个层级的跨链网络的最佳层级权重值,确定最终的跨链网络协同结果。
16.在一些实施例中,根据每个跨链网络协同信息中的跨链交互次数和基础权重,计算出其对于其他跨链网络的跨链权重值h,包括:
[0017][0018][0019][0020]
其中f(a)为跨链频次辅助函数,g(b)为权重辅助函数;a为跨链网络x对于其他跨链网络的交互次数,p为跨链网络x本身的交互次数和其发起的交互次数之和;k为x的基础权重,b为x交互的跨链网络权重之和。
[0021]
在一些实施例中,所述多智能体模型的构建方法包括:
[0022]
所述多智能体模型采用mappo算法,采用actor-critic架构,是一个中心化值函数。
[0023]
采用中心化学习、去中心化决策;
[0024]
智能体各自有各自的策略网络,训练的时候有一个中央控制器,中央控制器收集所有智能体的观测、动作、以及奖励,中央控制器帮助智能体训练策略网络,训练结束之后,每个智能体根据自己的观测,用自己的策略网络做决策,不需要跟中央控制器通信;
[0025]
系统利用n个智能体,每个智能体(actor)上有一个策略网络,智能体跟环境交互,从环境中获得信息要素,智能体自己做决策得到动作ai,然后执行ai,训练的时候需要中央控制器,智能体跟中央控制器通信,把动作、观测和奖励发送给中央控制器;
[0026]
中央控制器有所有智能体的信息以及n个价值网络critici,每个价值网络都对应一个智能体,在中央网络训练价值网络并使用时间差分算法更新训练结果;
[0027]
训练结束之后不需要中央控制器了,每个智能体独立跟环境交互,智能体从局部环境观测到oi,每个智能体都有自己的决策网络,将观察作为输入,策略网络会输出一个动作概率分布,根据概率分布选择动作ai,每个智能体执行自己的动作ai,然后环境会改变状态。
[0028]
在一些实施例中,所述分层强化学习模型的构建方法包括:
[0029]
所述分层强化学习模型采用option-critic架构;
[0030]
建立基于goal的分层强化学习,
[0031]
上层区块链网络构建上层控制器,训练准则是让输出的goal尽可能满足我们所设定的语义信息,即让目标尽可能符合较好的状态/状态转移方向;
[0032]
下层区块链网络构建下层控制器,而下层控制器的训练准则是让环境状态转移尽可能地满足目标;
[0033]
为此,上层区块链网络会传递给下层区块链网络一个内部奖励驱动下层区块链网络完成目标,而上层区块链网络通常依据外部环境奖励进行训练;
[0034]
因此,上层区块链网络与下层区块链网络实际上是分开训练的;通过赋予goal一定的语义信息,同时依据此语义信息设计合理的内部奖励,即便是在外部奖励十分稀疏的情况下,也能够保证下层区块链网络获得一定的内部激励,从而使得智能体能够更加高效地学习到最优策略,提升样本的使用效率。
[0035]
在一些实施例中,基于各个区域的跨链网络的最佳域权重值和各个层级的跨链网络的最佳层级权重值,确定最终的跨链网络协同结果,包括:
[0036][0037]
其中result为跨链网络协同结果,hs、h
l
分别为每个跨链网络的最佳域权重值、最佳层级权重值,h为一个跨链网络对于其他跨链网络的跨链权重值。
[0038]
第二方面,本发明提供了一种多域多层级跨链网络协同装置,包括:
[0039]
协同信息获取模块,被配置为:获取跨链网络协同信息,其中,所述协同信息包括协同数据、所述协同数据所在的区块链的层级号、协同类型、所在区域、跨链交互次数、基础权重以及业务需求;
[0040]
跨链权重值计算模块,被配置为:根据每个跨链网络协同信息中的跨链交互次数和基础权重,计算出其对于其他跨链网络的跨链权重值h;
[0041]
跨链网络划分模块,被配置为:根据所述协同信息划分跨链网络的区域以及层级,基于跨链业务需求以及跨链网络真实所在区域进行归类以及划分,形成多层级的活动功能、要素集合以及多区域的活动功能、要素集合;
[0042]
多智能体链接模块,被配置为:将每个区域当作一个多智能体,采用多智能体链接跨链网络中的多区域的活动功能、要素集合,形成以域划分的多智能体跨链网络集;
[0043]
第一跨链网络协同决策模块,被配置为:将所述以域划分的多智能体跨链网络集输入训练好的多智能体模型,根据所述多智能体模型的输出,得到各个区域的跨链网络的最佳域权重值;
[0044]
第二跨链网络协同决策模块,被配置为:将所述多层级的活动功能、要素集合输入训练好的分层强化学习模型,根据所述多智能体模型的输出,得到各个层级的跨链网络的最佳层级权重值;
[0045]
协同结果获取模块,被配置为:基于各个区域的跨链网络的最佳域权重值和各个层级的跨链网络的最佳层级权重值,确定最终的跨链网络协同结果。
[0046]
第三方面,本发明提供了一种计算机设备,包括处理器及存储介质;
[0047]
所述存储介质用于存储指令;
[0048]
所述处理器用于根据所述指令进行操作以执行根据所述方法的步骤。
[0049]
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。
[0050]
有益效果:本发明提供的多域多层级跨链网络协同方法及装置,具有以下优点:利用分层强化学习的交互性和决策能力,以及多智能体的感知能力,设计一种能够根据多层级以及多区域的区块链网络进行跨链协同的方案,从而实现跨链系统体协同下的高性能交互协作。
附图说明
[0051]
图1为根据本发明一实施例中多域多层级跨链网络协同方法的流程图。
具体实施方式
[0052]
下面结合附图和实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0053]
在本发明的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
[0054]
本发明的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0055]
实施例1
[0056]
如图1所示,一种多域多层级跨链网络协同方法,包括:
[0057]
获取跨链网络协同信息,其中,所述协同信息包括协同数据、所述协同数据所在的区块链的层级号、协同类型、所在区域、跨链交互次数、基础权重(例如在交易业务中的交易量)以及业务需求;
[0058]
根据每个跨链网络协同信息中的跨链交互次数和基础权重,计算出其对于其他跨链网络的跨链权重值h;
[0059]
根据所述协同信息划分跨链网络的区域以及层级,基于跨链业务需求以及跨链网络真实所在区域进行归类以及划分,形成多层级的活动功能、要素集合以及多区域的活动功能、要素集合;
[0060]
将每个区域当作一个多智能体,采用多智能体链接跨链网络中的多区域的活动功能、要素集合,形成以域划分的多智能体跨链网络集;
[0061]
将所述以域划分的多智能体跨链网络集输入训练好的多智能体模型,根据所述多智能体模型的输出,得到各个区域的跨链网络的最佳域权重值;
[0062]
将所述多层级的活动功能、要素集合输入训练好的分层强化学习模型,根据所述多智能体模型的输出,得到各个层级的跨链网络的最佳层级权重值;
[0063]
基于各个区域的跨链网络的最佳域权重值和各个层级的跨链网络的最佳层级权
重值,确定最终的跨链网络协同结果。
[0064]
在一些实施例中,根据每个跨链网络协同信息中的跨链交互次数和基础权重,计算出其对于其他跨链网络的跨链权重值h,包括:
[0065][0066][0067][0068]
其中f(a)为跨链频次辅助函数,g(b)为权重辅助函数;a为跨链网络x对于其他跨链网络的交互次数,p为跨链网络x本身的交互次数和其发起的交互次数之和;k为x的基础权重,b为x交互的跨链网络权重之和。
[0069]
在一些实施例中,所述多智能体模型的构建方法包括:
[0070]
所述多智能体模型采用mappo算法,采用actor-critic架构,是一个中心化值函数。
[0071]
采用中心化学习、去中心化决策;
[0072]
智能体各自有各自的策略网络,训练的时候有一个中央控制器,中央控制器收集所有智能体的观测、动作、以及奖励,中央控制器帮助智能体训练策略网络,训练结束之后,每个智能体根据自己的观测,用自己的策略网络做决策,不需要跟中央控制器通信;
[0073]
系统利用n个智能体,每个智能体(actor)上有一个策略网络,智能体跟环境交互,从环境中获得信息要素,智能体自己做决策得到动作ai,然后执行ai,训练的时候需要中央控制器,智能体跟中央控制器通信,把动作、观测和奖励发送给中央控制器;
[0074]
中央控制器有所有智能体的信息以及n个价值网络critici,每个价值网络都对应一个智能体,在中央网络训练价值网络并使用时间差分算法更新训练结果;
[0075]
训练结束之后不需要中央控制器了,每个智能体独立跟环境交互,智能体从局部环境观测到oi,每个智能体都有自己的决策网络,将观察作为输入,策略网络会输出一个动作概率分布,根据概率分布选择动作ai,每个智能体执行自己的动作ai,然后环境会改变状态。
[0076]
在智能体学习过程中,智能体首先会观测当前环境的状态,然后根据自身的观察和策略做出动作,并在环境中获得奖励,最后通过时间差分算法以及最大化累计奖励的方式来更新自身的策略,即每一轮训练更新自身的跨链权重值。
[0077]
考虑到智能体需要同时与环境和环境中其他的智能体进行交互,智能体在做决策时,其他智能体也在采取动作,因此很难得到一个稳定的最优的策略。与此同时,多智能体环境在非平稳状态下容易导致马尔可夫性失效,所以直接在多智能体环境中应用单智能体强化学习很难保证收敛性,因此本模型采用mappo算法,采用actor-critic架构,其是一个中心化值函数,每个区块链智能体不再需要中央控制器,独立与环境进行交互,可以保证更好的收敛性能和样本复杂性。
[0078]
在一些实施例中,所述分层强化学习模型的构建方法包括:
[0079]
所述分层强化学习模型采用option-critic架构;
[0080]
建立基于goal的分层强化学习,
[0081]
上层区块链网络构建上层控制器,训练准则是让输出的goal尽可能满足我们所设定的语义信息,即让目标尽可能符合较好的状态/状态转移方向;
[0082]
下层区块链网络构建下层控制器,而下层控制器的训练准则是让环境状态转移尽可能地满足目标;
[0083]
为此,上层区块链网络会传递给下层区块链网络一个内部奖励驱动下层区块链网络完成目标,而上层区块链网络通常依据外部环境奖励进行训练;
[0084]
因此,上层区块链网络与下层区块链网络实际上是分开训练的;通过赋予goal一定的语义信息,同时依据此语义信息设计合理的内部奖励,即便是在外部奖励十分稀疏的情况下,也能够保证下层区块链网络获得一定的内部激励,从而使得智能体能够更加高效地学习到最优策略,提升样本的使用效率。
[0085]
考虑到泛化能力以及环境的适应性,本分层强化学习模型构建模块采用option-critic框架。其不需要针对环境进行子任务的设计,将分层后的区块链网络看作一个训练的agent,即计算实体。
[0086]
agent从初始状态开始选择某一个选项,即跨链权重值,执行该选项的策略π直到满足终止条件,退出当前的选项执行动作或选择新的选项,继续进入循环选择直到训练任务结束。
[0087]
在一些实施例中,基于各个区域的跨链网络的最佳域权重值和各个层级的跨链网络的最佳层级权重值,确定最终的跨链网络协同结果,包括:
[0088][0089]
其中result为跨链网络协同结果,hs、h
l
分别为每个跨链网络的最佳域权重值、最佳层级权重值,h为一个跨链网络对于其他跨链网络的跨链权重值。
[0090]
实施例2
[0091]
第二方面,本实施例提供了一种多域多层级跨链网络协同装置,包括:
[0092]
协同信息获取模块,被配置为:获取跨链网络协同信息,其中,所述协同信息包括协同数据、所述协同数据所在的区块链的层级号、协同类型、所在区域、跨链交互次数、基础权重以及业务需求;
[0093]
跨链权重值计算模块,被配置为:根据每个跨链网络协同信息中的跨链交互次数和基础权重,计算出其对于其他跨链网络的跨链权重值h;
[0094]
跨链网络划分模块,被配置为:根据所述协同信息划分跨链网络的区域以及层级,基于跨链业务需求以及跨链网络真实所在区域进行归类以及划分,形成多层级的活动功能、要素集合以及多区域的活动功能、要素集合;
[0095]
多智能体链接模块,被配置为:将每个区域当作一个多智能体,采用多智能体链接跨链网络中的多区域的活动功能、要素集合,形成以域划分的多智能体跨链网络集;
[0096]
第一跨链网络协同决策模块,被配置为:将所述以域划分的多智能体跨链网络集输入训练好的多智能体模型,根据所述多智能体模型的输出,得到各个区域的跨链网络的最佳域权重值;
[0097]
第二跨链网络协同决策模块,被配置为:将所述多层级的活动功能、要素集合输入训练好的分层强化学习模型,根据所述多智能体模型的输出,得到各个层级的跨链网络的最佳层级权重值;
[0098]
协同结果获取模块,被配置为:基于各个区域的跨链网络的最佳域权重值和各个层级的跨链网络的最佳层级权重值,确定最终的跨链网络协同结果。
[0099]
实施例3
[0100]
第三方面,本发明提供了一种计算机设备,包括处理器及存储介质;
[0101]
所述存储介质用于存储指令;
[0102]
所述处理器用于根据所述指令进行操作以执行根据所述方法的步骤。
[0103]
实施例4
[0104]
第三方面,本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述方法的步骤。
[0105]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0106]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0107]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0108]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0109]
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:


1.一种多域多层级跨链网络协同方法,其特征在于,包括:获取跨链网络协同信息,其中,所述协同信息包括协同数据、所述协同数据所在的区块链的层级号、协同类型、所在区域、跨链交互次数、基础权重以及业务需求;根据每个跨链网络协同信息中的跨链交互次数和基础权重,计算出其对于其他跨链网络的跨链权重值h;根据所述协同信息划分跨链网络的区域以及层级,基于跨链业务需求以及跨链网络真实所在区域进行归类以及划分,形成多层级的活动功能、要素集合以及多区域的活动功能、要素集合;将每个区域当作一个多智能体,采用多智能体链接跨链网络中的多区域的活动功能、要素集合,形成以域划分的多智能体跨链网络集;将所述以域划分的多智能体跨链网络集输入训练好的多智能体模型,根据所述多智能体模型的输出,得到各个区域的跨链网络的最佳域权重值;将所述多层级的活动功能、要素集合输入训练好的分层强化学习模型,根据所述多智能体模型的输出,得到各个层级的跨链网络的最佳层级权重值;基于各个区域的跨链网络的最佳域权重值和各个层级的跨链网络的最佳层级权重值,确定最终的跨链网络协同结果。2.根据权利要求1所述的多域多层级跨链网络协同方法,其特征在于,根据每个跨链网络协同信息中的跨链交互次数和基础权重,计算出其对于其他跨链网络的跨链权重值h,包括:括:括:其中f(a)为跨链频次辅助函数,g(b)为权重辅助函数;a为跨链网络x对于其他跨链网络的交互次数,p为跨链网络x本身的交互次数和其发起的交互次数之和;k为x的基础权重,b为x交互的跨链网络权重之和。3.根据权利要求1所述的多域多层级跨链网络协同方法,其特征在于,所述多智能体模型的构建方法包括:所述多智能体模型采用mappo算法,采用actor-critic架构,是一个中心化值函数;采用中心化学习、去中心化决策;智能体各自有各自的策略网络,训练的时候有一个中央控制器,中央控制器收集所有智能体的观测、动作、以及奖励,中央控制器帮助智能体训练策略网络,训练结束之后,每个智能体根据自己的观测,用自己的策略网络做决策,不需要跟中央控制器通信;系统利用n个智能体,每个智能体actor上有一个策略网络,智能体跟环境交互,从环境中获得信息要素,智能体自己做决策得到动作a
i
,然后执行a
i
,训练的时候需要中央控制器,智能体跟中央控制器通信,把动作、观测和奖励发送给中央控制器;
中央控制器有所有智能体的信息以及n个价值网络critic
i
,每个价值网络都对应一个智能体,在中央网络训练价值网络并使用时间差分算法更新训练结果;训练结束之后不需要中央控制器了,每个智能体独立跟环境交互,智能体从局部环境观测到o
i
,每个智能体都有自己的决策网络,将观察作为输入,策略网络会输出一个动作概率分布,根据概率分布选择动作a
i
,每个智能体执行自己的动作a
i
,然后环境会改变状态。4.根据权利要求1所述的多域多层级跨链网络协同方法,其特征在于,所述分层强化学习模型的构建方法包括:所述分层强化学习模型采用option-critic架构;建立基于goal的分层强化学习,上层区块链网络构建上层控制器,训练准则是让输出的goal尽可能满足我们所设定的语义信息,即让目标尽可能符合较好的状态/状态转移方向;下层区块链网络构建下层控制器,而下层控制器的训练准则是让环境状态转移尽可能地满足目标;为此,上层区块链网络会传递给下层区块链网络一个内部奖励驱动下层区块链网络完成目标,而上层区块链网络通常依据外部环境奖励进行训练;因此,上层区块链网络与下层区块链网络实际上是分开训练的;通过赋予goal一定的语义信息,同时依据此语义信息设计合理的内部奖励,即便是在外部奖励十分稀疏的情况下,也能够保证下层区块链网络获得一定的内部激励,从而使得智能体能够更加高效地学习到最优策略,提升样本的使用效率。5.根据权利要求1所述的多域多层级跨链网络协同方法,其特征在于,基于各个区域的跨链网络的最佳域权重值和各个层级的跨链网络的最佳层级权重值,确定最终的跨链网络协同结果,包括:其中result为跨链网络协同结果,h
s
、h
l
分别为每个跨链网络的最佳域权重值、最佳层级权重值,h为一个跨链网络对于其他跨链网络的跨链权重值。6.一种多域多层级跨链网络协同装置,其特征在于,包括:协同信息获取模块,被配置为:获取跨链网络协同信息,其中,所述协同信息包括协同数据、所述协同数据所在的区块链的层级号、协同类型、所在区域、跨链交互次数、基础权重以及业务需求;跨链权重值计算模块,被配置为:根据每个跨链网络协同信息中的跨链交互次数和基础权重,计算出其对于其他跨链网络的跨链权重值h;跨链网络划分模块,被配置为:根据所述协同信息划分跨链网络的区域以及层级,基于跨链业务需求以及跨链网络真实所在区域进行归类以及划分,形成多层级的活动功能、要素集合以及多区域的活动功能、要素集合;多智能体链接模块,被配置为:将每个区域当作一个多智能体,采用多智能体链接跨链网络中的多区域的活动功能、要素集合,形成以域划分的多智能体跨链网络集;第一跨链网络协同决策模块,被配置为:将所述以域划分的多智能体跨链网络集输入训练好的多智能体模型,根据所述多智能体模型的输出,得到各个区域的跨链网络的最
佳域权重值;第二跨链网络协同决策模块,被配置为:将所述多层级的活动功能、要素集合输入训练好的分层强化学习模型,根据所述多智能体模型的输出,得到各个层级的跨链网络的最佳层级权重值;协同结果获取模块,被配置为:基于各个区域的跨链网络的最佳域权重值和各个层级的跨链网络的最佳层级权重值,确定最终的跨链网络协同结果。7.根据权利要求6所述的多域多层级跨链网络协同装置,其特征在于,根据每个跨链网络协同信息中的跨链交互次数和基础权重,计算出其对于其他跨链网络的跨链权重值h,包括:括:括:其中f(a)为跨链频次辅助函数,g(b)为权重辅助函数;a为跨链网络x对于其他跨链网络的交互次数,p为跨链网络x本身的交互次数和其发起的交互次数之和;k为x的基础权重,b为x交互的跨链网络权重之和。8.根据权利要求6所述的多域多层级跨链网络协同装置,其特征在于,基于各个区域的跨链网络的最佳域权重值和各个层级的跨链网络的最佳层级权重值,确定最终的跨链网络协同结果,包括:其中result为跨链网络协同结果,h
s
、h
l
分别为每个跨链网络的最佳域权重值、最佳层级权重值,h为一个跨链网络对于其他跨链网络的跨链权重值。9.一种计算机设备,其特征在于,包括处理器及存储介质;所述存储介质用于存储指令;所述处理器用于根据所述指令进行操作以执行根据权利要求1至5任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。

技术总结


本发明公开了一种多域多层级跨链网络协同方法及装置,方法包括:获取跨链网络协同信息,根据每个跨链网络协同信息,计算出其对于其他跨链网络的跨链权重值;根据所述协同信息划分跨链网络的区域以及层级,形成多层级的活动功能、要素集合以及多区域的活动功能、要素集合;将每个区域当作一个多智能体,采用多智能体链接跨链网络中的多区域的活动功能、要素集合,形成以域划分的多智能体跨链网络集;将以域划分的多智能体跨链网络集输入训练好的多智能体模型,得到各个区域的跨链网络的最佳域权重值;将多层级的活动功能、要素集合输入训练好的分层强化学习模型,得到各个层级的跨链网络的最佳层级权重值;确定最终的跨链网络协同结果。网络协同结果。网络协同结果。


技术研发人员:

亓晋 虞赟淼 董振江 孙雁飞 陈滏媛 陈根鑫 许斌

受保护的技术使用者:

南京邮电大学

技术研发日:

2022.10.20

技术公布日:

2023/2/3

本文发布于:2024-09-22 04:17:41,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/59423.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:网络   权重   智能   所述
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议