一种基于深度强化学习架构的低轨卫星路由策略方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910243972.6
(22)申请日 2019.03.28
(71)申请人 北京邮电大学
地址 100876 北京市海淀区西土城路10号
(72)发明人 王程 王慧文 徐玭 王卫东 
崔高峰 胡欣 
(74)专利代理机构 北京永创新实专利事务所
11121
代理人 冀学军
(51)Int.Cl.
H04W  40/18(2009.01)
H04L  12/705(2013.01)
H04L  12/751(2013.01)
H04B  7/185(2006.01)
G06N  3/04(2006.01)
(54)发明名称
一种基于深度强化学习架构的低轨卫星路
由策略方法
(57)摘要
本发明公开了一种基于深度强化学习架构
的低轨卫星路由策略方法,属于无线通信领域。
首先建立铱星星座网络,结合马尔可夫决策过程
搭建深度强化学习架构;针对某个卫星节点A,周
期性向邻居节点发送HELLO包,寻与当前节点A
链路状态相通的邻接节点。通过输入目的节点
坐标,当前节点以及邻居节点的链路状态到深度
强化学习架构中,得到当前节点的下一跳节点,
同理继续得到下一跳节点;当出现特殊路由情况
(如断路、环路、拥塞)时,采取相应的解决策略,
将链路状态重复输入到深度强化学习架构中,直
至到达目的节点,完成路径规划过程。本发明在
降低系统复杂度和存储开销的同时达到实时探
测卫星链路状态的效果,卫星路由更具稳定性和
可靠性。权利要求书2页  说明书7页  附图4页CN 110012516 A 2019.07.12
C N  110012516
A
1.一种基于深度强化学习架构的低轨卫星路由策略方法,其特征在于,具体步骤包括:
步骤一、针对低轨卫星组网,依赖星间链路,建立铱星星座网络;
步骤二、利用铱星星座网络,结合马尔可夫决策过程搭建深度强化学习架构;
深度强化学习架构的具体搭建过程如下:
首先、设计强化学习算法的各参数:状态S,动作a,状态转移概率和奖励信号r;
状态S为[x p,y p,x q,y q,state,nei_state];x p表示源节点p的横坐标;y p表示源节点p的纵坐标;x q表示目的节点q的横坐标;y q表示目的节点q的纵坐标;state表示当前节点的星间链路状态;nei_state表示邻居节点的星间链路状态;
动作a包括上、下、左、右;对应当前卫星的四个星间链路;
状态转移概率ISLs为当前节点的星间链路状态中存在的星间链路数;
奖励值函数r=-dis/K;dis为执行当前节点的动作a后,下一跳节点到目的节点间剩余的距离,计算为:dis=(x p-x q)2+(y p-y q)2;K为常数,负责调解奖励信号的大小;
在训练过程中,当前节点输入状态S经过深度强化学习架构运算得到动作a,执行该动作并以概率转移到下一状态s';
然后,采用双重深度Q网络eval-Q和tar-Q,进行深度强化学习架构的价值函数更新;
eval-Q网络负责探索最新的路由环境,tar-Q网络负责存储学习到当前环境的经验;在应用过程中每执行eval-Q网络一定步数后将其参数同步到tar-Q网络,并进行价值函数更新:
更新公式为:
其中,γ为衰减因子,θt为eval-Q网络参数,为tar-Q网络参数;
通过大量数据训练并计算loss,反向传播,修正强化学习算法中的参数,使其达到收敛,完成学习过程,生成并保存源节点s到目的节点d的深度强化学习架构模型M(s,d);
步骤三、针对某个卫星节点A,周期性向邻居节点发送HELLO包;
步骤四、判断是否在规定时间内收到邻居节点的HELLO包反馈信息,如果是,进入步骤五;否则,该卫星节点A与邻居节点的链路断开,不考虑将该邻居节点作为下一跳节点;
步骤五、根据HELLO包的反馈信息判断当前节点A的链路状态与邻接节点是链路相通,通过解析接收到的邻居节点的HELLO包更新邻居节点链路状态,实现对链路状态的实时监测;
邻居节点的链路状态[x s,y s,x d,y d,state,nei_state];x s表示源节点s的横坐标;y s表示源节点s的纵坐标;x d表示目的节点d的横坐标;y d表示目的节点d的纵坐标;
同时,相邻卫星之间通过HELLO包传递负载信息,负载状态为拥塞和良好两种,针对负载状态为拥塞的邻居节点,不考虑将该邻居节点作为下一跳节点;
步骤六、输入目的节点D坐标,当前节点A的链路状态,以及邻居节点的链路状态到深度强化学习架构中,得到当前节点A的下一跳节点B;
步骤七、同理,将下一跳节点B的链路状态输入到深度强化学习架构中,得到当前节点B 的下一跳节点;
步骤八、判断下一跳节点是否为节点A,如果是,则产生环路;否则,进入步骤九;
针对环路,应对策略为将路径B—A的链路临时置为断路,选取次优下一跳卫星节点,直到不会出现环路情况时的节点为下一跳节点;
步骤九、同理,将下一跳节点作为起始节点,链路状态重复输入到深度强化学习架构中,
得到下一跳节点,直至下一跳节点为目的节点,完成路径规划过程。
2.如权利要求1所述的一种基于深度强化学习架构的低轨卫星路由策略方法,其特征在于,步骤一中所述的星间链路主要分为轨道内星间链路和轨道间星间链路;
轨道内星间链路简称轨内链路永久存在且性能稳定;
轨道间星间链路简称轨间链路,负责连接左、右相邻轨道间的相邻卫星;
铱星星座网络中每个卫星均设为一个节点。
3.如权利要求1所述的一种基于深度强化学习架构的低轨卫星路由策略方法,其特征在于,步骤二中所述的深度强化学习架构分为输入层,深度学习网络层以及输出层;采用多层全连接深度神经网络,通过Adam算法优化,反向传播,大量训练提取输入节点状态的深层特征,在输出层采用分类器,输出当前节点的下一跳动作;
其中,输入层包括当前节点的星间链路状态和邻居节点的星间链路状态,深度学习网络层是深度神经网络结合强化学习算法构建而成;输出层输出的是当前节点的下一跳节点。
一种基于深度强化学习架构的低轨卫星路由策略方法
技术领域
[0001]本发明属于无线通信领域,涉及低轨星座系统中星间路由技术问题,具体是一种基于深 度强化学习架构的低轨卫星路由策略方法。
背景技术
[0002]卫星网络作为未来空间系统信息交换的基础设施,已成为全球信息网络的重要组成部分。 低轨卫
星(Low Earth Orbit,LEO)具有低损耗、低时延、广覆盖、研制周期短以及成本较 低等优点,更适合承载实时业务。
[0003]至今发射组网并进行运营的低轨卫星通信系统包括:“铱”(Iridium)卫星、“全球星” (Globalstar)和“轨道通信”(Orbcomm)系统。经过多年的运营和发展,以上低轨卫星通 信系统显示出了其独特的优势并均已经启动其下一步计划。此外,近些年陆续提出了以一网 公司(OneWeb)、美国天空探索技术公司(SpaceX)为代表的新一代低轨卫星通信星座系统, 其特点是星座中的卫星数量更多、从提供窄带移动业务转向提供宽带互联网接入服务。
[0004]强化学习是受到生物能够有效适应环境的启发,以试错的机制与环境进行交互,通过最大 化累积奖赏的方式来学习到最优策略。强化学习的研究有着悠久的历史。1992年,Tesauro 等成功使用强化学习使西洋双陆棋达到了大师级的水准,Sutton等撰写了第1本系统性介绍 强化学习的书籍,Kearns等第1次证明了强化学习问题可以用少量的经验得到近似最优解, 2006年Kocsis等提出的置信上限树算法革命性地推动了强化学习在围棋游戏上的应用,这 可以说是初弈号的鼻祖,2015年,Littman在《Nature》上对强化学习做了综述,目前常用 的强化学习方法包括蒙特卡罗、Q学习、SARSA学习、TD学习、策略梯度和自适应动态规划 等。
[0005]在高级人工智能领域,感知和决策能力都是衡量智能的指标。然而直接通过学习高维感 知输入(如
图像、语音等)去控制智能体,对强化学习来说是一个长期的挑战。强化学习在 策略选择的理论和算法方面已经取得了很大的进步。其中大部分成功的强化学习应用方案依 赖于人工特征的选取,然而学习结果的好坏严重地取决于特征选取的质量。近期深度学习的 发展使得直接从原始的数据中提取高水平特征变成可能。深度学习具有较强的感知能力,但 是缺乏一定的决策能力,而强化学习具有决策能力,对感知问题束手无策。因此,将两者结 合起来,优势互补,为复杂系统的感知决策问题提供了解决思路。[0006]卫星路由算法是LEO卫星网络研究的关键技术之一。由于未来LEO数量在千颗的数量级(例如OneWeb采用720颗LEO卫星组成星座,SpaceX采用4425颗LEO/MEO卫星组成星座), 并且服务类型更加多样化,因此在如此庞大规模的多业务卫星网络中,卫星路由算法是构建 卫星网络、实现高速、可靠通信所需要解决的核心问题。然而卫星网络因与地面网络相比具 有许多不同的特征,导致构建卫星网络路由需要面临诸多挑战,如:链路时延变化尺度大、 误码率高、网络拓扑始终处于快速变化中、节点和链路失效概率大等。现有的卫星路由算法 中,静态拓扑路由算法所需要的存储资源开销大,无法实时的发现网络拓扑的动态
变化。动 态拓扑路由算法大多需要依赖中心节点或者特定的星座结构实现,对卫星计算能力有较高要 求,且开销较大。因此,在未来的研究中,需要结合低轨卫星网络环境特点,设计开销小, 能有效应对卫星异常情况的“智能化”卫星路由算法。
[0007]深度学习在在模式识别、预测分析、自然语言处理等领域有较好的应用,其高效、适应 性好的特
点正是当前卫星路由模块所需要的。强化学习也属于机器学习的一种。它通过一个 智能体不断地探索周围环境,每做一个决策,都会得到一个对应的奖励值R。如果智能体当 前选择的策略是正确的,则得到一个正反馈信号,否则会得到一个负反馈信号。深度强化学 习是结合了深度学习和强化学习的优点,既能够通过深度学习架构学习到深层次的路由特征 信息,又可以利用强化学习感知环境选择路由动作。如果将深度强化学习架构运用在路由算 法模块中,或许会取得很好的效果,对于卫星网络路由算法的发展提供了新的希望。
发明内容
[0008]本发明针对低轨星座运行过程中星间链路的通断切换、卫星负载状态实时变化以及卫星 路由故障等情况,提出一种基于深度强化学习架构的低轨卫星路由策略方法,为低轨星座网 络内路径传输选择问题提出一种有效解决思路。
[0009]具体步骤包括:
[0010]步骤一、针对低轨卫星组网,依赖星间链路,建立铱星(Iridium)星座网络;[0011]星间链路主要分为轨道内星间链路和轨道间星间链路;
[0012]轨道内星间链路简称轨内链路永久存在且性能稳定。
[0013]轨道间星间链路简称轨间链路,负责连接左、右相邻轨道间的相邻卫星。[0014]铱星星座网络中每个卫星均设为一个节点。
[0015]步骤二、利用铱星星座网络,结合马尔可夫决策过程搭建深度强化学习架构;[0016]深度强化学习架构分为输入层,深度学习网络层以及输出层;采用多层全连接深度神经 网络,通过Adam算法优化,反向传播,大量训练提取输入节点状态的深层特征,在输出层采 用分类器,输出当前节点的下一跳动作。
[0017]其中输入层包括当前节点的星间链路状态和邻居节点的星间链路状态,深度学习网络层 是深度神经网络结合强化学习算法构建而成;输出层输出的是当前节点的下一跳节点。
[0018]深度强化学习架构的具体搭建过程如下:
[0019]首先、设计强化学习算法的各参数:状态S,动作a,状态转移概率和奖励信号r;[0020]状态S为[x p,y p,x q,y q,state,nei_state];x p表示源节点p的横坐标;y p表示源节点p的 纵坐标;x q表示目的节点q的横坐标;y q表示目的节点q的纵坐标;state表示当前节点的星 间链路状态;nei_state表示邻居节点的星间链路状态。
[0021]动作a包括上、下、左、右;对应当前卫星的四个星间链路。
[0022]状态转移概率ISLs为当前节点的星间链路状态中存在的星间链路数。
[0023]奖励值函数r=-dis/K;dis为执行当前节点的动作a后,下一跳节点到目的节点间

本文发布于:2024-09-22 05:33:38,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/462169.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:学习   节点   强化   链路   深度   状态   路由
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议