首页 > 学术百科

基于深度强化学习的无人机自主避障系统及方法[发明专利]

(19)国家知识产权局

(12)发明专利

(10)授权公告号 (45)授权公告日 (21)申请号 202210195266.0(22)申请日 2022.03.02

(65)同一申请的已公布的文献号

申请公布号 CN 114326821 A (43)申请公布日 2022.04.12

(73)专利权人中国人民解放军陆军指挥学院地址 210045 江苏省南京市浦口区龙盘路1

号(72)发明人王钦辉　陈志龙　魏军儒　何昌其　

王云宪　焦萍　闫茜茜　(74)专利代理机构南京冠誉至恒知识产权代理

有限公司 32426

专利代理师夏恒霞(51)Int.Cl.

G05D 1/10(2006.01)

审查员徐东亮

(54)发明名称

基于深度强化学习的无人机自主避障系统及方法(57)摘要

本发明公布了基于深度强化学习的无人机自主避障系统和方法，通过新颖的系统架构，将训练与决策分离，能够大幅降低训练时耗，提升飞行器决策时效；该自主避障方法采用基于策略迭代的深度强化学习模型，以无人机单目摄像机拍摄的以原始的RGB图像为训练数据，无需复杂的点云等其他3D信息，通过

完全卷积神经网络对原始RGB图形进行训练获得深度图像信息，再通过基于策略迭代的强化学习方法对图像进行分析预测，提前预判出无人机下一时刻的飞行动作，实现自主避障。本发明提出的避障方法训练时耗比现有典型的基于值迭代的方法都更加高效、时耗更低，可实现灵活自主地避障，适用于变电站自动巡检、无人机巡航等高要求的自主避障

场景。

权利要求书2页说明书5页附图2页

CN 114326821 B 2022.06.03

C N 114326821

1.基于深度强化学习的无人机自主避障系统的避障方法，其特征在于，包括如下步骤：

S1、获取无人机单目摄像机采集的原始RGB图像；

S2、采用完全卷积神经网络，对原始RGB图像进行训练，获得深度信息；所述步骤S2的具体过程为：

采集观察区域内像素值的加权和，卷积操作后采用非线性激活函数输出特征值；具体地，采用完全卷积神经网络FCNN学习方式进行深度信息感知，系统接受任意尺寸的输入图像，采用反卷积层对最后一个卷积层的特征图进行上采样, 使其恢复到与输入图像相同的尺寸，从而对每个像素都产生了一个预测，得到深度图像信息；所述FCNN每个阶段的操作均包括如下三个步骤：卷积、非线性激活、池化；

S3、基于预设离散的无人机飞行动作：线速度和角速度，采用基于策略迭代方法的强化学习方法，对深度图像进行训练，获得下一时刻无人机应采取的最优飞行动作；

所述步骤S3中的强化学习对策略进行直接迭代，用函数来近似地表示策略，其中，表示无人机的状态，状态描述用多维向量表示，包括无人机的飞行状态、飞行位置和环境信息；表示无人机的动作，包括飞行角速度和飞行线速度；表示包含

可调节参数的函数，使用参数对所获得的策略进行近似；表示状态下采取动作

的概率；算法的目标是最大化策略的期望收益，其中

表示在当前状态下执行了动作得到的奖赏；

其中，由期望收益得到参数的更新计算方法为：

，其中是微分算子；

更新Actor网络时采用剪切代理的方法，最大化

，其中是Actor函数的参数，和

分别表示旧策略和新策略；上述公式的前半部分是梯度更新，Actor在旧策略上，根据势修改新策略，如果势较大，则修改幅度大，使得新策略更可能发生；上述公式的后半部

分包含一个惩罚项，即KL散度，用参数表示散度项的影响因子；如果新旧策略差异大，则KL散度也大，这样不利于收敛；

所述剪切代理的方法为：记，代理对象记为，剪切代

理对象限制了代理的变化幅度；最终优化目标变为：

，其中，表示裁剪函数，表示调节参数，表示势；

Critic函数的参数，表示带参数的状态值函数，T表示一个时间段，表示从当前时刻开始进行搜索的搜索时刻，为可变动参数；

S4、服务器得出无人机预采取的飞行动作：线速度和角速度，再反馈给无人机，无人机

基于此选择飞行动作，实现自主避障。

基于深度强化学习的无人机自主避障系统及方法

技术领域

[0001]本发明涉及一种无人机避障系统及方法，具体涉及一种基于深度强化学习的无人机自主避障系统及方法；属于无人机飞行控制技术领域。

背景技术

[0002]避障是无人机的核心问题之一，其目标是让无人机自主探索未知环境以避免与其他物体发生碰撞，以获得一条能够避开威胁安全到达目标的飞行路径。传统的避障技术是通过检测可穿越的空间和障碍物，再进行路径规划，其使用的数据信息是通过RGB‑D相机、光检测、测距传感器(LIDAR)、甚至声呐等捕获的。这些传统的避障技术能够较好地适用于地面机器人的自主避障，但是在无人机这类空中飞行器的自主避障中进行应用时存在较大难度。具体表现在测距传感器只能捕获有限的信息，并且对无人机而言，其重量过大又耗电，且价格昂贵。相对而言，单目摄像机能捕获环境的丰富信息，且成本低、重量轻，适用于各种平台。但是，当通过单目摄像机捕获距离感知时（即RGB图像），3‑D世界被扁平化为一个2‑D图像，消除了像素和距离之间的直接对应关系，避障问题变得异常困难。

[0003]随着深度学习在机器人和计算机视觉中的广泛应用，将深度学习应用于避障路径规划也变得越来

越流行。现有技术中有技术采用卷积神经网络(CNN)训练方法使飞行器能够在复杂的森林环境中巡航。有的技术则通过使用3D点云数据训练卷积神经网络来标记轨迹类型。这些方法可分为监督学习半监督学习两大类，前者需要耗费大量的人力进行类型标记，后者的学习策略某种程度上受标签生成策略的限制。

[0004]深度强化学习 (DRL)方法最近已被证明，在充分利用原始图像的基础上，在游戏中可实现超人的表现。因此，近年来人们开始关注利用DRL研究实现基于视觉的自主避障，这些工作的一个共同点就是模型训练的数据并不是原始图像。有的使用激光扫描仪和深度图像数据进行网络训练，有的则提出完全在3D CAD模型模拟器中训练网络以预测碰撞。尽管这些工作可以将训练的网络扩展到真实世界，但仍需要大量的计算资源来生成庞大的数据集并对其进行训练。基于上述原因，有必要提出一种更加实用便捷的无人机自主避障技术。

发明内容

[0005]为解决现有技术的不足，本发明的目的在于提供一种基于深度强化学习的无人机自主避障系统及方法，通过单目摄像机采集的原始RGB图像即可实现灵活、高效地自主避障。

[0006]为了实现上述目标，本发明采用如下的技术方案：

[0007]本发明首先公布了一种基于深度强化学习的无人机自主避障系统，包括：[0008]服务器，用于完成数据训练与计算；

[0009]，与所述服务器连接；

[0010]飞行器，与所述通联，接受由反馈的服务器训练结果，做出飞行决策；

[0011]所述服务器包括本地服务器和云端服务器，两者通过互联网实现连接。

[0012]优选地，前述飞行器为无人机，安装有用于拍摄原始RGB图像的单目摄像机。[0013]本发明还公布了采用前述的基于深度强化学习的无人机自主避障系统的避障方法，包括如下步骤：

[0014]S1、获取无人机单目摄像机采集的原始RGB图像；

[0015]S2、采用完全卷积神经网络，对原始RGB图像进行训练，获得深度信息；

[0016]S3、基于预设离散的无人机飞行动作（通过线速度和角速度描述），采用值基于迭代方法的强化学习方法，对深度图像进行训练；

[0017]S4、服务器得出无人机预采取的飞行动作：线速度和角速度，再反馈给无人机，无人机基于此选择飞行动作，实现自主避障。

[0018]优选地，前述步骤S2的具体过程为：采集观察区域中像素值的加权和，卷积操作后采用非线性激活函数输出特征值，这里优选采用的非线性激活函数为sigmoid 函数：

；具体地，采用FCNN完全卷积神经网络学习方式进行深度信息感知，系统接受任

意尺寸的输入图像，采用反卷积层对最后一个卷积层的特征图进行上采样, 使其恢复到输入图像相同的尺寸，从而对每个像素都产生了一个预测，得到深度图像信息。

[0019]更优选地，前述FCNN每个阶段的操作均包括如下三个步骤：卷积、非线性激活、池化。

[0020]再优选地，前述步骤S3中基于策略的强化学习直接对策略进行直接迭代，用函数

来近似地表示策略，其中，表示无人机的状态，状态描述可用多维向量表示，包括无人机的飞行状态、飞行位置和环境信息（环境图像）等；表示无人机的动作，包括飞行角速度和飞行速度；表示包含可调节参数的函数，使用参数对所获得的策略进行近似；表示状态下采取动作的概率；算法的目标是最

大化策略的

期望收益，其中表示在当前状态下执行了动作得到的奖赏。

[0021]再优选地，前述步骤中，由期望收益得到参数的更新计算方法为：

，其中是微分算子。基于这样的构思，

Actor‑Critic 方法在对策略进行直接迭代的基础上，增加值函数以评价选择的动作。Actor代表算法中的策略结构，它被用于动作选择; Critic则代表值函数，评价 Actor 所选择的动作。

[0022]更优选地，前述步骤S3中，更新Actor网络时采用剪切代理的方法，最大化

，其中是Actor函数的参数，和

本文发布于:2024-09-20 22:36:59，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/764101.html

上一篇：高精度同步生成式无人机导航诱骗系统及同步授时方法[发明专利]

下一篇：移动通信系统[发明专利]

标签：避障进行训练方法图像自主深度学习

留言与评论（共有 0 条评论）