低轨卫星的跳波束调度方法、系统、装置及存储介质与流程



1.本发明涉及卫星通信技术领域,尤其涉及一种低轨卫星的跳波束调度方法、系统、装置及存储介质。


背景技术:



2.目前,随着5g技术的日益成熟,5g发展稳步前进。由于5g的高性能、低延迟和高容量等突出特点,5g技术开启了万物互联的新时代,融入了人工智能、大数据等多项技术。但是5g通信作为一种陆地移动系统,具有一定的局限性。由于经济和技术的限制,陆地移动通信服务不能覆盖到所有区域,比如海洋、森林、沙漠等偏远地区的船舶、飞机、科考设备等难以使用带宽。采用卫星网络作为辅助通信的手段,可以解决陆地移动通信服务覆盖不到的区域的通信问题,因此,5g和卫星网络的结合可以大大的提升网络覆盖范围。
3.高轨卫星轨道资源有限且数据传输延迟大,在线视频聊天或者游戏等服务的时延要求都不能满足。相比之下,低轨卫星的数据传输时延被大大缩短,且随着现代移动通信和电子元器件技术的飞速发展,制约早期低轨卫星通信系统的通话质量、数据传输速率和使用成本等问题都迎刃而解,低轨卫星通信系统可以被广泛应用。目前低轨卫星系统的轨道和频谱资源有限,可以使用跳波束技术来分配低轨卫星系统的资源,但是目前还没有合理的跳波束策略进行波束调度。


技术实现要素:



4.本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种低轨卫星的跳波束调度方法、系统、装置及存储介质,能够自动生成的跳波束策略以对低轨卫星的波束进行合理调度。
5.一方面,本发明实施例提供了一种低轨卫星的跳波束调度方法,包括以下步骤:
6.获取低轨卫星系统中波束簇的小区覆盖信息;
7.根据所述小区覆盖信息,以所述小区为状态,波束跳动方向为行为,构建q值矩阵表;
8.初始化所述q值矩阵表中的q值;
9.按照预设的训练次数训练所述q值矩阵表,得到跳波束策略,以使低轨卫星根据跳波束策略进行波束调度;
10.其中,每一次训练所述q值矩阵表包括以下步骤:
11.以波束遍历波束簇中的所有小区为目标状态,采用强化学习算法更新所述q值矩阵表。
12.根据本发明一些实施例,所述q值矩阵表通过以下步骤训练更新:
13.在当前状态的所有可能行为中选择一个行为执行,得到下一状态和奖励值;
14.根据所述下一状态的最大q值和所述奖励值更新当前状态被选择行为的q值。
15.根据本发明一些实施例,在当前状态的所有可能行为中选择一个行为执行,得到
下一状态和奖励值包括以下步骤:
16.在当前状态的所有可能行为中选择一个行为执行,得到下一状态对应的下一小区的覆盖用户数量、重合波束个数和下一小区位置;
17.根据当前状态对应的当前小区位置和下一小区位置确定波束移动距离;
18.根据所述覆盖用户数量、所述重合波束个数和所述波束移动距离确定所述奖励值。
19.根据本发明一些实施例,所述根据所述覆盖用户数量、所述重合波束个数和所述波束移动距离确定所述奖励值包括以下步骤:
20.根据所述覆盖用户数量确定奖励值正相关项;
21.根据所述重合波束个数确定第一奖励值负相关项;
22.根据所述波束移动距离确定第二奖励值负相关项;
23.根据所述奖励值正相关项、所述第一奖励值负相关项和所述第二奖励值负相关项确定所述奖励值。
24.根据本发明一些实施例,所述奖励值通过以下公式获得:
[0025][0026]
其中,reward表示奖励值,m表示覆盖用户数量,n表示重合波束个数,d表示波束移动距离。
[0027]
根据本发明一些实施例,所述根据所述下一状态的最大q值和所述奖励值更新当前状态被选择行为的q值包括以下步骤:
[0028]
根据所述下一状态的最大q值和所述奖励值确定当前状态的期望q值;
[0029]
根据当前状态的期望q值与更新前的当前状态的q值的差距更新当前状态被选择行为的q值。
[0030]
根据本发明一些实施例,所述当前状态的期望q值通过以下公式计算:
[0031]
q(s
t
',a
t
')=reward+gamma
×
arg(max(q(s
t+1
));
[0032]
其中,q(s
t
',a
t
')表示当前状态的期望q值,gamma表示预设的衰减值,q(s
t+1
)表示下一状态的所有可能行为对应的q值。
[0033]
另一方面,本发明实施例还提供一种低轨卫星的跳波束调度系统,包括:
[0034]
第一模块,用于获取低轨卫星系统中波束簇的小区覆盖信息;
[0035]
第二模块,用于根据所述小区覆盖信息,以所述小区为状态,波束跳动方向为行为,构建q值矩阵表;
[0036]
第三模块,用于初始化所述q值矩阵表中的q值;
[0037]
第四模块,用于按照预设的训练次数训练所述q值矩阵表,得到跳波束策略,以使低轨卫星根据跳波束策略进行波束调度;
[0038]
其中,每一次训练所述q值矩阵表包括以下步骤:
[0039]
以波束遍历波束簇中的所有小区为目标状态,采用强化学习算法更新所述q值矩阵表。
[0040]
另一方面,本发明实施例还提供一种低轨卫星的跳波束调度装置,包括:
[0041]
至少一个处理器;
[0042]
至少一个存储器,用于存储至少一个程序;
[0043]
当所述至少一个程序被所述至少一个处理器执行,使得至少一个所述处理器实现如前面所述的低轨卫星的跳波束调度方法。
[0044]
另一方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如前面所述的低轨卫星的跳波束调度方法。
[0045]
本发明上述的技术方案至少具有如下优点或有益效果之一:通过以波束簇中的小区为状态,波束跳动方向为行为,构建q值矩阵表并对q值矩阵表进行初始化,然后以波束遍历波束簇中的所有小区为目标状态,采用强化学习算法更新q值矩阵表,按照预设的训练次数重复该更新过程,以使q值矩阵表中的q值能够准确反映在当前小区位置选择波束跳动方向对应的环境奖励值,从而能够基于q值矩阵表在不同小区选择环境奖励值更高的波束跳动方向自动生成合理的跳波束策略,根据跳波束策略中对低轨卫星的波束进行合理调度。
附图说明
[0046]
图1是本发明实施例提供的低轨卫星的跳波束调度方法流程图;
[0047]
图2是本发明实施例提供卫星通信系统示意图;
[0048]
图3是本发明实施例提供的低轨卫星的跳波束调度装置示意图。
具体实施方式
[0049]
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或者类似的标号表示相同或者类似的原件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0050]
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、左、右等指示的方位或者位置关系为基于附图所示的方位或者位置关系,仅是为了便于描述本发明和简化描述,而不是指示或者暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0051]
本发明的描述中,如果有描述到第一、第二等只是用于区分技术特征为目的,而不能理解为指示或者暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
[0052]
对本技术实施例进行进一步详细说明之前,对本技术实施例中涉及的名词和术语进行说明,本技术实施例中涉及的名词和术语适用于如下的解释。
[0053]
波束(wave beam),波束是指由卫星天线发射出来的电磁波在地球表面上形成的形状(比如说像手电筒向黑暗处射出的光束)。主要有全球波束、点形波束、赋形波束,具体由发射天线来决定其形状。
[0054]
小区(cell),假设某地区被k个点波束区域所覆盖,每个点波束区域称为小区(cell)。小区内用户的通信业务流由网关站上传至卫星,再由卫星通过跳波束下行链路发送到各用户。将每n个点波束归为一个分组,称为一个波束簇(cluster),共分为m个波束簇,显然,k=n
×
m。
[0055]
跳波束技术,是卫星系统一种动态波束可调技术,其应用时分复用思想,将低轨卫
星系统的时间资源分成很多段时隙,每个时隙只有一部分波束按需工作,在下一时隙,依据流量动态请求调度波束,使系统波束“跳”到其他小区,即波束按时隙调度。在传统多波束系统中,所有点波束同时工作,但并不是所有区域都时刻有业务需求,这就造成了一定的资源浪费。而跳波束系统中星上仅有部分跳变波束同时工作,即任一指定时刻,每簇仅有少量点波束区域被点亮而处于工作状态。在每个波束簇中,系统按需跳变到有业务请求的小区,为其提供服务,大大减少了因信道空闲而造成的资源浪费。
[0056]
amf(access and mobility management function,接入和移动性管理功能接入和移动性管理功能),5g核心网网元,负责用户的接入和移动性管理。
[0057]
nwdaf(network data analytics function,网络数据分析功能),5g核心网网元,负责根据网络服务的请求数据提供网络分析服务。
[0058]
本发明实施例提供了低轨卫星的跳波束调度方法,可应用于卫星通信系统中,参照图2,卫星通信系统包括卫星(低轨卫星)和5g核心网,5g核心网包括amf、数据库和nwdaf。
[0059]
卫星用于向amf上报其卫星位置、小区覆盖信息和无线资源信息等;
[0060]
amf用于接收卫星上报的卫星位置、小区覆盖信息和无线资源信息,将接收到的各种信息加上相应的时间戳后,存储至数据库;同时amf发送跳波束分析请求至nwdaf;
[0061]
nwdaf用于根据跳波束分析请求从数据库获取相应的数据,根据数据进行跳波束策略训练分析,再将得到的跳波束策略发送给amf;
[0062]
amf将跳波束策略转发至相应的卫星,使得卫星根据收到的跳波束策略进行波束跳动。
[0063]
本发明实施例的低轨卫星的跳波束调度方法可应用上述卫星通信系统的nwdaf,也可以应用于卫星通信系统中其他具有数据分析功能的网元,本发明实施例不作具体限制。
[0064]
参照图1,本发明实施例的低轨卫星的跳波束调度方法包括但不限于步骤s110、步骤s120、步骤s130和步骤s140。
[0065]
步骤s110,获取低轨卫星系统中波束簇的小区覆盖信息;
[0066]
步骤s120,根据小区覆盖信息,以小区为状态,波束跳动方向为行为,构建q值矩阵表;
[0067]
步骤s130,初始化q值矩阵表中的q值;
[0068]
步骤s140,按照预设的训练次数训练所述q值矩阵表,得到跳波束策略,以使低轨卫星根据跳波束策略进行波束调度;
[0069]
其中,每一次训练q值矩阵表包括以下步骤:
[0070]
以波束遍历波束簇中的所有小区为目标状态,采用强化学习算法更新q值矩阵表。
[0071]
具体地,跳波束技术基于分时复用思想,每一个低轨卫星会在一定的时间段中为波束簇的每一个小区分配时隙,按照时隙顺序依次将波束调度至对应小区,使得仅有被波束点亮的小区能够实现卫星通讯。为了合理分配小区时隙,首先获取波束簇中的小区覆盖信息,即波束簇中的小区分布,然后根据小区覆盖信息,以小区为状态,波束跳动方向为行为,构建并初始化q值矩阵表,q值矩阵表如表1所示。
[0072]
表1初始q值矩阵表
[0073][0074][0075]
参照表1,q值矩阵表中的状态表示小区,行为表示在当前小区的波束下一跳动方向,q值矩阵表中的数值为q值,q值表征在对应小区按照对应的波束跳动方向得到环境奖励值。在构建q值矩阵表后,初始化q值矩阵表的每一个值为0,然后采用强化学习算法中的q-learning更新q值矩阵表,即随机选择一个初始状态,即随机选择波束的起始覆盖小区位置开始更新q值,直到波束覆盖波束簇中的所有小区完成一次q值矩阵表的训练更新,按照预设训练次数反复更新q值矩阵表后,得到训练完成的q值矩阵表,如表2所示。
[0076]
表2训练完成的q值矩阵表
[0077][0078]
假设小区c1为波束的起始位置,按照小区c1所有可能行为中q值最大的行为确定下一跳,即在小区c1向上跳,波束在小区c1向上跳后来到小区c2,同样取小区c2所有可能行为中q值最大的行为确定下一跳,依次类推,直到波束跳到所有小区,从而获得波束调度路径。进一步地,按照时隙划分细粒度,根据波束调度路径进行时隙分配可以得到跳波束策略,低轨卫星根据跳波束策略进行波束调度。
[0079]
可以理解的是,本发明实施例给出的波束跳动方向包括上、下、左、右,波束跳动方向也可以是更少或者更多的方向,波束跳动方向可以采用与参考线的夹角角度方式进行表示。
[0080]
根据本发明一些具体实施例,q值矩阵表通过以下步骤训练更新:
[0081]
步骤s210,在当前状态的所有可能行为中选择一个行为执行,得到下一状态和奖励值;
[0082]
步骤s220,根据下一状态的最大q值和奖励值更新当前状态被选择行为的q值。
[0083]
具体地,在第一次训练q值矩阵表的过程中,由于q值矩阵表中的每一个值均为0,
因此下一状态的最大q值均为0,此时可以随机选择任意一个下一状态的最大q值结合从当前状态跳到下一状态获得的奖励值来更新当前状态被选择行为的q值,然后进入下一状态的q值更新,直到所有状态的q值被更新则完成一次训练。
[0084]
根据本发明一些具体实施例,步骤s210包括但不限于步骤s310、步骤s320和步骤s330。
[0085]
步骤s310,在当前状态的所有可能行为中选择一个行为执行,得到下一状态对应的下一小区的覆盖用户数量、重合波束个数和下一小区位置;
[0086]
步骤s320,根据当前状态对应的当前小区位置和下一小区位置确定波束移动距离;
[0087]
步骤s330,根据覆盖用户数量、重合波束个数和波束移动距离确定奖励值。
[0088]
具体地,将覆盖用户数量融入到奖励值计算中,使得q值矩阵表中的q值融入资源利用率特征,将重合波束个数融入到奖励值计算中,使得q值矩阵表中的q值融入波束干扰影响特征,将波束移动距离融入到奖励值计算中,使得q值矩阵表中的q值融入路径长度特征,根据q值矩阵表得到跳波束策略兼顾资源利用率、波束干扰和路径长度因素,使得低轨卫星根据跳波束策略进行合理的波束调度,能够优化资源利用率,减少波束干扰。
[0089]
根据本发明一些具体实施例,步骤s330包括但不限于步骤s410、步骤s420、步骤s430和步骤s440。
[0090]
步骤s410,根据覆盖用户数量确定奖励值正相关项;
[0091]
步骤s420,根据重合波束个数确定第一奖励值负相关项;
[0092]
步骤s430,根据波束移动距离确定第二奖励值负相关项;
[0093]
步骤s440,根据奖励值正相关项、第一奖励值负相关项和第二奖励值负相关项确定奖励值。
[0094]
具体地,奖励值正相关项表征奖励值随覆盖用户数量递增而递增,第一奖励值负相关项表征奖励值随重合波束个数递减而递增,第二奖励值负相关项表征奖励值随波束移动距离递减而递增,将奖励值正相关项、第一奖励值负相关项和第二奖励值负相关项相加得到奖励值,该奖励值越大表示资源利用率越高、波束干扰越少以及调度路径越短,相应地,根据奖励值更新得到的q值,q值越大表示资源利用率越高、波束干扰越少以及调度路径越短,因此,根据q值矩阵表选择波束在当前小区的下一跳方向时,应选择q值最大的方向进行波束跳动。
[0095]
需要说明的是,本发明实施例也可以仅根据奖励值正相关项确定奖励值,即只考虑资源利用率对奖励值的影响,或者仅根据第一奖励值负相关项确定奖励值,即只考虑波束干扰对奖励值的影响,或者仅根据第二奖励值负相关项确定奖励值,即只考虑调度距离对奖励值的影响,或者根据奖励值正相关项、第一奖励值负相关项和第二奖励值负相关项中的任意两项确定奖励值,本发明实施例不作具体限制。
[0096]
在一些实施例中,可以根据不同影响因素的重要程度,对奖励值正相关项、第一奖励值负相关项和第二奖励值负相关项进行加权操作,例如,波束调度主要考虑资源利用率,波束干扰及调度路径为次要考虑因素,则奖励值正相关项、第一奖励值负相关项和第二奖励值负相关项的权重分别可以为0.7、0.2、0.1,将各个相关项与各自的权重相乘后再相加得到奖励值。
[0097]
具体地,奖励值计算公式可以如公式(1)所示:
[0098][0099]
其中,reward表示奖励值,m表示覆盖用户数量,n表示重合波束个数,d表示波束移动距离。
[0100]
根据本发明一些具体实施例,步骤s220包括但不限于步骤s510和步骤s520。
[0101]
步骤s510,根据下一状态的最大q值和奖励值确定当前状态的期望q值;
[0102]
步骤s520,根据当前状态的期望q值与更新前的当前状态的q值的差距更新当前状态被选择行为的q值。
[0103]
具体地,以继续训练表2的q值矩阵表为例,当前状态c1采取向上动作的q值为88,在当前状态c1采取向上动作后来到下一状态c2,根据小区c2的覆盖用户数量、重合波束个数以及波束移动距离等信息确定奖励值,查表得到下一状态c2最大q值87,将下一状态c2最大q值乘以一个预设的衰减值再加上奖励值,得到期望q值,假设为90。计算期望q值90与当前状态c1采取向上动作的估计q值88的差值,将该差值乘以一个学习率0.5后加上原来的估计q值88,得到更新后当前状态c1采取向上动作的q值为89。
[0104]
根据本发明一些具体实施例,当前状态的期望q值通过以下公式计算:
[0105]
q(s
t
',a
t
')=reward+gamma
×
arg(max(q(s
t+1
));
[0106]
其中,q(s
t
',a
t
')表示当前状态的期望q值,gamma表示预设的衰减值,q(s
t+1
)表示下一状态的所有可能行为对应的q值。
[0107]
本发明实施例还提供一种低轨卫星的跳波束调度系统,包括:
[0108]
第一模块,用于获取低轨卫星系统中波束簇的小区覆盖信息;
[0109]
第二模块,用于根据小区覆盖信息,以小区为状态,波束跳动方向为行为,构建q值矩阵表;
[0110]
第三模块,用于初始化q值矩阵表中的q值;
[0111]
第四模块,用于按照预设的训练次数训练q值矩阵表,得到跳波束策略,以使低轨卫星根据跳波束策略进行波束调度;
[0112]
其中,每一次训练q值矩阵表包括以下步骤:
[0113]
以波束遍历波束簇中的所有小区为目标状态,采用强化学习算法更新所述q值矩阵表。
[0114]
可以理解的是,上述低轨卫星的跳波束调度方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述低轨卫星的跳波束调度方法实施例相同,并且达到的有益效果与上述低轨卫星的跳波束调度方法实施例所达到的有益效果也相同。
[0115]
参照图3,图3是本发明一个实施例提供的低轨卫星的跳波束调度装置的示意图。本发明实施例的低轨卫星的跳波束调度装置包括一个或多个控制处理器和存储器,图3中以一个控制处理器及一个存储器为例。
[0116]
控制处理器和存储器可以通过总线或者其他方式连接,图3中以通过总线连接为例。
[0117]
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非
暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于控制处理器远程设置的存储器,这些远程存储器可以通过网络连接至该低轨卫星的跳波束调度装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0118]
本领域技术人员可以理解,图3中示出的装置结构并不构成对低轨卫星的跳波束调度装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0119]
实现上述实施例中应用于低轨卫星的跳波束调度装置的低轨卫星的跳波束调度方法所需的非暂态软件程序以及指令存储在存储器中,当被控制处理器执行时,执行上述实施例中应用于低轨卫星的跳波束调度装置的低轨卫星的跳波束调度方法。
[0120]
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,可使得上述一个或多个控制处理器执行上述方法实施例中的低轨卫星的跳波束调度方法。
[0121]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0122]
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

技术特征:


1.一种低轨卫星的跳波束调度方法,其特征在于,包括以下步骤:获取低轨卫星系统中波束簇的小区覆盖信息;根据所述小区覆盖信息,以所述小区为状态,波束跳动方向为行为,构建q值矩阵表;初始化所述q值矩阵表中的q值;按照预设的训练次数训练所述q值矩阵表,得到跳波束策略,以使低轨卫星根据跳波束策略进行波束调度;其中,每一次训练所述q值矩阵表包括以下步骤:以波束遍历波束簇中的所有小区为目标状态,采用强化学习算法更新所述q值矩阵表。2.根据权利要求1所述的低轨卫星的跳波束调度方法,其特征在于,所述q值矩阵表通过以下步骤训练更新:在当前状态的所有可能行为中选择一个行为执行,得到下一状态和奖励值;根据所述下一状态的最大q值和所述奖励值更新当前状态被选择行为的q值。3.根据权利要求2所述的低轨卫星的跳波束调度方法,其特征在于,在当前状态的所有可能行为中选择一个行为执行,得到下一状态和奖励值包括以下步骤:在当前状态的所有可能行为中选择一个行为执行,得到下一状态对应的下一小区的覆盖用户数量、重合波束个数和下一小区位置;根据当前状态对应的当前小区位置和下一小区位置确定波束移动距离;根据所述覆盖用户数量、所述重合波束个数和所述波束移动距离确定所述奖励值。4.根据权利要求3所述的低轨卫星的跳波束调度方法,其特征在于,所述根据所述覆盖用户数量、所述重合波束个数和所述波束移动距离确定所述奖励值包括以下步骤:根据所述覆盖用户数量确定奖励值正相关项;根据所述重合波束个数确定第一奖励值负相关项;根据所述波束移动距离确定第二奖励值负相关项;根据所述奖励值正相关项、所述第一奖励值负相关项和所述第二奖励值负相关项确定所述奖励值。5.根据权利要求3所述的低轨卫星的跳波束调度方法,其特征在于,所述奖励值通过以下公式获得:其中,reward表示奖励值,m表示覆盖用户数量,n表示重合波束个数,d表示波束移动距离。6.根据权利要求2所述的低轨卫星的跳波束调度方法,其特征在于,所述根据所述下一状态的最大q值和所述奖励值更新当前状态被选择行为的q值包括以下步骤:根据所述下一状态的最大q值和所述奖励值确定当前状态的期望q值;根据当前状态的期望q值与更新前的当前状态的q值的差距更新当前状态被选择行为的q值。7.根据权利要求6所述的低轨卫星的跳波束调度方法,其特征在于,所述当前状态的期望q值通过以下公式计算:q(s
t
',a
t
')=reward+gamma
×
arg(max(q(s
t+1
));
其中,q(s
t
',a
t
')表示当前状态的期望q值,gamma表示预设的衰减值,q(s
t+1
)表示下一状态的所有可能行为对应的q值。8.一种低轨卫星的跳波束调度系统,其特征在于,包括:第一模块,用于获取低轨卫星系统中波束簇的小区覆盖信息;第二模块,用于根据所述小区覆盖信息,以所述小区为状态,波束跳动方向为行为,构建q值矩阵表;第三模块,用于初始化所述q值矩阵表中的q值;第四模块,用于按照预设的训练次数训练所述q值矩阵表,得到跳波束策略,以使低轨卫星根据跳波束策略进行波束调度;其中,每一次训练所述q值矩阵表包括以下步骤:以波束遍历波束簇中的所有小区为目标状态,采用强化学习算法更新所述q值矩阵表。9.一种低轨卫星的跳波束调度装置,其特征在于,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得至少一个所述处理器实现如权利要求1至7任一项所述的低轨卫星的跳波束调度方法。10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序被由所述处理器执行时用于实现如权利要求1至7任一项所述的低轨卫星的跳波束调度方法。

技术总结


本发明公开一种低轨卫星的跳波束调度方法、系统、装置及存储介质,涉及卫星跳波束技术领域。低轨卫星的跳波束调度方法包括:获取低轨卫星系统中波束簇的小区覆盖信息;根据所述小区覆盖信息,以所述小区为状态,波束跳动方向为行为,构建Q值矩阵表;初始化所述Q值矩阵表中的Q值;按照预设的训练次数训练所述Q值矩阵表,得到跳波束策略,以使低轨卫星根据跳波束策略进行波束调度;其中,每一次训练所述Q值矩阵表包括以下步骤:以波束遍历波束簇中的所有小区为目标状态,采用强化学习算法更新所述Q值矩阵表。本申请能够自动生成的跳波束策略以对低轨卫星的波束进行合理调度。以对低轨卫星的波束进行合理调度。以对低轨卫星的波束进行合理调度。


技术研发人员:

王丹

受保护的技术使用者:

爱浦路网络技术(南京)有限公司

技术研发日:

2022.08.23

技术公布日:

2022/12/16

本文发布于:2024-09-23 17:18:19,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/37064.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:波束   所述   矩阵   状态
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议