首页 > 专利学习

一种基于深度强化学习的无人机伪路径规划的方法[发明专利]

(19)国家知识产权局

(12)发明专利

(10)授权公告号 (45)授权公告日 (21)申请号 201910948346.7(22)申请日 2019.10.08(65)同一申请的已公布的文献号

申请公布号 CN 110673637 A (43)申请公布日 2020.01.10

(73)专利权人福建工程学院地址 350000 福建省福州市闽侯县上街镇

福州地区大学新校区学园路(72)发明人陈鲤文　周瑶　郑日晶　张文吉　(74)专利代理机构武汉科皓知识产权代理事务

所(特殊普通合伙) 42222

专利代理师魏波(51)Int.Cl.

G05D 1/10(2006.01)

(56)对比文件

WO 2018156891 A1,2018.08.30

CN 109655066 A ,2019.04.19

CN 109032168 A ,2018.12.18

CN 109974737 A ,2019.07.05WO 2018156891 A1,2018.08.30CN 106595671 A ,2017.04.26

韩晓雷.基于安全区域模型的飞行机器人电塔巡检路径规划.《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》.中国学术期刊（光盘版）电子杂志社,2017,(第02期)，第1-57页.

Munoz , Guillem等.Deep Reinforcement Learning for Drone Delivery.《DRONES》.2019，第3卷(第3期)，第1-19页.

虞晓霞等.一种基于深度学习的禁飞区无人机目标识别方法.《长春理工大学学报(自然科学版)》.长春理工大学,2018，第41卷(第3期)，第95-101页.

审查员严宇

(54)发明名称

一种基于深度强化学习的无人机伪路径规划的方法(57)摘要

本发明公开了一种基于深度强化学习的无人机伪路径规划的方法，首先在飞行地图上划分禁飞区域的边界坐标和标记出无人机飞行任务的起点坐标和终点坐标位置；执行飞行任务前感知无人机当前环境状态，利用深度强化学习算法，根据得到的Q函数值选择当前环境下的偏转角度和飞行动作；无人机根据在飞行过程中不断地接收来自地面发射设备给出飞行的位置数据并与环境进行交互得到的奖励回报

更新Q函数；飞行过程中将禁飞区域作为虚拟障碍物，判断无人机是否按照预设航线飞行；若接近禁飞区域边缘，则通过奖励函数引导无人机规划伪航行路径，避开禁飞区域；本发明实现了对未知环境下的无人机的伪路径规划，提高无人机飞行的智能化，

安全化。

权利要求书2页说明书4页附图2页

CN 110673637 B 2022.05.13

C N 110673637

1.一种基于深度强化学习的无人机伪路径规划的方法，其特征在于，包括以下步骤：

步骤1：在飞行地图上划分禁飞区域的边界坐标，并标记出无人机飞行的起点和终点位置坐标；

步骤2：执行飞行任务前感知无人机当前环境状态，包括低、高空气候数据，无人机飞行高度，无人机飞行位置坐标；基于当前环境状态信息，利用深度强化学习算法，根据得到的Q 函数值选择当前环境下

的飞行偏转角度和动作；无人机根据在飞行过程中不断地接收来自地面发射设备给出飞行的位置数据并与环境进行交互得到的奖励回报更新Q函数；

其中，所述深度强化学习算法是利用深度学习中的卷积神经网络和强化学习的Q‑learning算法相结合的改进型深度卷积神经网络算法；

所述深度强化学习算法包括无人机飞行时的状态集{S

1，S

，S

......S

，t≥1}，动作集

1，a

，a

......a

，t≥1}，奖励函数R(s)，以及深度强化学习目标网络权重θ；

所述深度强化学习根据状态集、动作集、奖励函数代入到状态行为值函数Q

，a

)中；

所述Q

，a

)的函数为：

其中Q

t+1

，a

)为t+1时刻对应的Q值，Q

，a

)为t时刻的Q值，α为学习速率，γ为折扣

因子，R

为执行t时刻动作时的回报值；

所述目标网络权值θ加入后动作行为值函数更新为：

其中，V

t+1为t+1时刻根据当前的状态行为值函数Q

，a

；θ)所得到的行为值函数用来

更新t+1时刻的状态行为值；深度强化学习Double DQN中将动作的选择和动作的评估分别用不同的值函数实现；

动作选择时的值函数公式为公式：

动作选择时的值函数做出选择时首先选择一个动作a*，该动作a*应该满足在状态S

t+1

处

Q(S

t+1，a)最大；其中R

t+1

表示t+1时刻的奖励值；

动作评估时的值函数为在选出最大的动作a*之后选择不同的网络权重θ′动作评估的公式；

其中，为利用深度强化学习网络Double DQN计算之后的状态动作值函数的值；

步骤3：飞行过程中将禁飞区域作为虚拟障碍物，判断无人机是否按照正常的航线飞行；

若远离禁飞区，无人机继续与环境交互规划路径，执行步骤2；

若接近禁飞区域边缘，则通过深度强化学习算法的奖励函数引导无人机规划伪航行路线，避开禁飞区域；

步骤4：若无人机到达终点，则结束飞行；否则继续执行步骤2。

2.根据权利要求1所述的基于深度强化学习的无人机伪路径规划的方法，其特征在于：

步骤1中，首先将飞行地图模拟为栅格环境模型，栅格环境模型将无人机的飞行环境划分为一系列具有二值信息的大小相同或不同的单元格，其中一些单元格划分为禁飞区域；禁飞

区域的边界坐标在栅格环境模型上明确标出为{(x

i ，y

)，(x

i+1

，y

i+1

)，(x

i+2

，y

i+2

)......

i+m ，y

i+n

)|m，n＞0，i≥1}；在飞行地图上同时标出无人机飞行的起点(X

start

，Y

start

)

和终点

end ，Y

end

)的位置坐标。

3.根据权利要求1所述的基于深度强化学习的无人机伪路径规划的方法，其特征在于：

步骤2中，所述深度强化学习算法权重值θ的选择为优先回放；具体实现包括以下子步骤：步骤2.1：无人机首先在空中飞行环境中进行训练，由无人机与环境的交互中收集状态动作数据集放入回放记忆单元中；

步骤2.2：深度强化学习的神经网络分为现实网络和估计网络两部分，当回放记忆单元所存储的经验数据超过设定的数据集数量时，智能体开始训练；

步骤2.3：无人机在与环境的交互根据当前的状态选择动作，其中现实网络和估计网络的结构一样，只是

用于训练的神经网络的参数不同；现实网络根据无人机当前状态在神经网络中进行训练得到最大的状态行为值Q(s，a；θ)，同时估计网络经过训练神经网络的训练得到下一状态下的状态行为值max

Q(s'，a'；θ')，得到现实网络和估计网络的误差函数，利

用随机梯度下降法得到贪婪策略下的最大的状态行为值函数arg max

Q(s，a；θ)；无人机根据状态行为值函数选择下一步的动作，并继续与环境进行交互。

4.根据权利要求3所述的基于深度强化学习的无人机伪路径规划的方法，其特征在于：步骤2中，无人机在飞行过程中与环境不断的进行交互，根据深度强化学习算法不断的更新状态行为值函数Q(s，a；θ)，更新航路轨迹。

一种基于深度强化学习的无人机伪路径规划的方法

技术领域

[0001]本发明属于机器学习技术领域，尤其涉及一种基于深度强化学习的无人机伪路径规划的方法。

背景技术

[0002]随着计算水平和人工智能领域的长足进步，无人机应用的领域越来越多，尤其在军事航空领域的应用也越来越广泛，无人机执行任务的种类也越来越复杂，在军事侦察领域和航空运输领域发挥了重要的作用。无人机航迹规划智能化的要求也越来越高，在无人机执行特殊任务时，按照规定要求从起点到终点的飞行过程中，无人机还要避开正常的民航飞行区域和雷达监测区域，以免对民航飞机的飞行和雷达监测造成干扰。为了更好的服务于各个领域的应用，无人机伪路径规划的研究成为当前无人机航迹规划的研究热点和难点。

[0003]随着人工智能技术的进步，近年来基于深度神经网络和深度强化学习的智能体控制方法进入大众视野。强化学习是机器学习的重要分支之一，它通过环境建模，对智能体的每一个动作进行反馈，通过设置积累奖励的目标函数，最大化一个智能体在当前状态所能取得的未来期望收获，来辅助智能体在每一个状态采取更明智的行为和动作。深度强化学习是一种利用神经网络优化智能体策略的算法，它通过神经网络存储参数的功能，消除了传统学习方法诸如：时序差分，现实策略差分算法中的维数灾难问题，为实时计算提供了思路。

[0004]在解决实际求解无人机航迹路径规划的过程中，根据不同的任务，地形环境的复杂程度的不同，

选择符合航迹规划的智能算法，现有的算法在进行航迹规划时按照无人机实时的飞行路径和避障进行规划航行，但在实际情况中，空域中一些禁飞区域为不可检测的隐形障碍物，在无人机飞行的过程中很容易误入禁区飞行，造成其他空域的飞行危险。

发明内容

[0005]本发明的目的在于克服现有无人机航迹规划的一般思维，提供一种基于深度强化学习的无人机伪路径规划的方法。本发明针对无人机避开禁区飞行规划出伪航迹，在无人机实际规划的航线和飞行禁区相冲突时，利用伪航迹引导无人机避开飞行禁区，保证空域内无人机的飞行安全和其他区域的正常运行。

[0006]本发明所采用的技术方案是：一种基于深度强化学习的无人机伪路径规划的方法，其特征在于，包括以下步骤：

[0007]步骤1：在飞行地图上划分禁飞区域的边界坐标，并标记出无人机飞行的起点和终点位置坐标；

[0008]步骤2：执行飞行任务前感知无人机当前环境状态，包括低、高空气候数据，无人机飞行高度，无人机飞行位置坐标；基于当前环境状态信息，利用深度强化学习算法，根据得到的Q函数值选择当前环境下的飞行偏转角度和动作；无人机根据在飞行过程中不断地接

收来自地面发射设备给出飞行的位置数据并与环境进行交互得到的奖励回报更新Q函数；

[0009]步骤3：飞行过程中将禁飞区域作为虚拟障碍物，判断无人机是否按照正常的航线飞行；

[0010]若远离禁飞区，无人机继续与环境交互规划路径，执行步骤2；[0011]若接近禁飞区域边缘，则通过深度强化学习的奖励函数引导无人机规划伪航行路线，避开禁飞区域；[0012]步骤4：若无人机到达终点，则结束飞行；否则继续执行步骤2。[0013]本发明的优点在于：

[0014] 1.本发明能够在复杂的环境下实现无人机的路径规划，从而使得无人机能够高效地飞行到目标位置，完成后续的任务。

[0015] 2.本发明能够利用深度强化学习方法为无人机规划出一条躲避禁飞空域的飞行伪路径，保证了无人机在没有实体障碍物的情况下不误飞入航空禁区和雷达监测区，避免干扰其他空域的正常工作，具有高效性和安全性，智能性。附图说明

[0016]图1为本发明实施例的流程图；

[0017]图2为本发明实施例中深度强化学习Double DQN算法的原理框图；

[0018]图3为本发明实施例中利用深度强化学习DoubleDQN算法的无人机伪路径规划示意图。

具体实施方式

[0019]为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

[0020]本发明采用一种基于深度强化学习的无人机伪路径规划的方法来避免无人机在航空飞行时误入航空飞行禁区的危险，利用深度强化学习算法结合栅格地图定位，将禁飞空域作为虚拟障碍物，在无人机规划的航迹误入禁区时，通过强化学习算法将为无人机重新规划一条伪路径，使其避开航空禁区，保证无人机的飞行安全和其他航空区域的正常运行，同时提高了无人机的航路规划的效率和安全性能。[0021]请见图1，本发明提供的一种基于深度强化学习的无人机伪路径规划的方法，包括以下步骤：

[0022]步骤1：在飞行地图上划分禁飞区域的边界坐标，并标记出无人机飞行的起点和终点位置坐标；

[0023]本实施例中的禁飞区域，包括正常民航飞行航空区域以及雷达区；[0024]本实施例中，首先将飞行地图模拟为栅格环境模型，栅格环境模型将无人机的飞行环境划分为一系列具有二值信息的大小相同或不同的单元格，其中一些单元格划分为禁飞区域；禁飞区域的边界坐标在栅格环境模型上明确标出为{(x i ，y i )，(x i+1，y i+1)，(x i+2，y i+2)……(x i+m ，y i+n )|m，n＞0，i≥1}；在飞行地图上同时标出无人机飞行的起点(X start ，

本文发布于:2024-09-20 20:34:56，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/1/414931.html

上一篇：喷气式飞机

下一篇：航空器的发展史

标签：飞行学习深度规划强化环境路径

留言与评论（共有 0 条评论）